イメージとビデオの分類
AI モデルを使用してイメージやビデオを分類し、アクティビティ認識を実行する
Computer Vision Toolbox™ は、深層学習や従来型のコンピューター ビジョン技術を使用してイメージやビデオを分類するためのエンドツーエンドのワークフローを提供します。イメージ カテゴリ分類には、深層学習に基づく事前学習済みのビジョン トランスフォーマー (ViT) モデルや CLIP モデルを使用するか、視覚的コンテンツに基づいてイメージを分類する bag-of-visual-words アプローチを適用することができます。これらのワークフローは、シーン認識、コンテンツ フィルター処理、自動タグ付けなどの用途をサポートします。まず、イメージ ラベラー アプリとビデオ ラベラー アプリを使用してシーンレベルのカテゴリにラベルを付け、次にラベル付けしたデータを使用してモデルの学習または微調整を行います。
ビデオの分類やアクティビティ認識において、ツールボックスを使用することで、深層学習モデルを使用して、フレームのシーケンスを歩く、泳ぐ、座るなどの動作カテゴリに分類できます。これらの機能は、ヒューマン-コンピューター インタラクションや監視などのタスクに不可欠です。ツールボックスは、ビデオ データ内の時間的パターンを解釈して複雑なアクティビティやジェスチャを認識できるモデルの学習、評価、および展開をサポートしています。
カテゴリ
- イメージ カテゴリの分類
bag-of-features、CNN、ビジョン トランスフォーマー、視覚言語モデルを使用してイメージを分類する
- ビデオ分類
深層学習を使用してビデオを分類し、アクティビティ認識を実行する





