イメージとビデオの分類

AI モデルを使用してイメージやビデオを分類し、アクティビティ認識を実行する

Computer Vision Toolbox™ は、深層学習や従来型のコンピュータービジョン技術を使用してイメージやビデオを分類するためのエンドツーエンドのワークフローを提供します。イメージカテゴリ分類には、深層学習に基づく事前学習済みのビジョントランスフォーマー (ViT) モデルや CLIP モデルを使用するか、視覚的コンテンツに基づいてイメージを分類する bag-of-visual-words アプローチを適用することができます。これらのワークフローは、シーン認識、コンテンツフィルター処理、自動タグ付けなどの用途をサポートします。まず、イメージラベラーアプリとビデオラベラーアプリを使用してシーンレベルのカテゴリにラベルを付け、次にラベル付けしたデータを使用してモデルの学習または微調整を行います。

ビデオの分類やアクティビティ認識において、ツールボックスを使用することで、深層学習モデルを使用して、フレームのシーケンスを歩く、泳ぐ、座るなどの動作カテゴリに分類できます。これらの機能は、ヒューマン-コンピューターインタラクションや監視などのタスクに不可欠です。ツールボックスは、ビデオデータ内の時間的パターンを解釈して複雑なアクティビティやジェスチャを認識できるモデルの学習、評価、および展開をサポートしています。

主要なトピック

注目の例

イメージ分類のためのビジョントランスフォーマーネットワークの学習

この例では、事前学習済みのビジョントランスフォーマー (ViT) ニューラルネットワークを微調整して、新しいイメージコレクションを分類する方法を説明します。

ライブスクリプトを開く

bag of features を使用したイメージカテゴリの分類

この例では、bag of features の手法を使用してイメージカテゴリの分類を行う方法を説明します。この手法は、多くの場合 bag of words とも呼ばれます。視覚的イメージの分類は、テスト対象のイメージにカテゴリラベルを割り当てる処理です。カテゴリには犬、猫、列車、船舶など、あらゆるものを表すイメージが含まれます。