メインコンテンツ

イメージ カテゴリの分類

bag-of-features、CNN、ビジョン トランスフォーマー、視覚言語モデルを使用してイメージを分類する

Computer Vision Toolbox™ のイメージ カテゴリ分類ツールを使用すると、深層学習ベースのビジョン トランスフォーマー モデルまたは従来の bag-of-visual-words 手法のいずれかを使用して、イメージを定義済みのカテゴリに分類できます。イメージ カテゴリ分類機能は、シーン認識、コンテンツ フィルター処理、自動タグ付けなどの用途において不可欠です。イメージ ラベラー アプリとビデオ ラベラー アプリを使用して、ラベル付きデータ セットを作成することから始められます。これらのアプリは、それぞれイメージとビデオ フレームに対するシーンレベルのラベルの、対話形式および AI アシストによる注釈付けをサポートしています。これらのラベルは、イメージ分類モデルの学習と評価におけるグラウンド トゥルースとして機能します。

深層学習ベースの分類のために、ツールボックスは visionTransformer 関数を通じて、事前学習済みのビジョン トランスフォーマー (ViT) モデルへのアクセスを提供します。これらのモデルは self-attention メカニズムを使用してイメージ全体のコンテキストを捉え、カスタム データ セット用に微調整することも可能です。patchEmbeddingLayer などのサポート層を使用することで、ViT アーキテクチャの設計と拡張が可能になります。さらに、ツールボックスには、視覚と言語理解を組み合わせてイメージ分類を実行する CLIP ネットワークのサポートも含まれます。clipNetwork オブジェクトと classify オブジェクト関数を使用して、視覚コンテンツとテキストによる説明を関連付けるイメージ分類タスクを実行し、マルチモーダル アプリケーションを実現します。

従来式のアプローチのために、ツールボックスは、イメージを視覚的な単語出現頻度のヒストグラムとして表現する bag-of-features (BoF) フレームワークをサポートしています。bagOfFeatures オブジェクトを使用して特徴を抽出し、ビジュアル ボキャブラリを構築した後、trainImageCategoryClassifier 関数を使用して分類器に学習させ、imageCategoryClassifier 関数を使用して予測を行うことができます。この方法は、軽量なアプリケーションや、解釈可能性が優先される場合に特に有効です。詳細については、bag of visual words を用いたイメージの分類を参照してください。

アプリ

イメージ ラベラーコンピューター ビジョンの応用に使用するラベル イメージ
ビデオ ラベラーLabel video for computer vision applications

関数

すべて展開する

visionTransformer事前学習済みビジョン トランスフォーマー (ViT) ニューラル ネットワーク (R2023b 以降)
patchEmbeddingLayerPatch embedding layer (R2023b 以降)
clipNetworkCreate pretrained CLIP deep learning neural network for vision-language tasks (R2026a 以降)
classifyClassify image using CLIP network (R2026a 以降)
bagOfFeaturesbag of visual words オブジェクト
trainImageCategoryClassifierイメージ カテゴリ分類器の学習
imageCategoryClassifierイメージ カテゴリの予測
imageDatastoreイメージ データのデータストア
splitlabels指定の比率に従ってラベルを分割するためのインデックスの検索
countlabels一意のラベル数のカウント
folders2labelsフォルダー名からのラベル リストの取得

トピック

イメージ分類のためのグラウンド トゥルースの作成

  • イメージ ラベラー入門
    四角形の ROI (オブジェクト検出用)、ピクセル (セマンティック セグメンテーション用)、多角形 (インスタンス セグメンテーション用)、およびシーン (イメージ分類用) に対話形式でラベルを付ける。
  • ビデオ ラベラー入門
    ビデオおよびイメージのシーケンス内の四角形の ROI (オブジェクト検出用)、ピクセル (セマンティック セグメンテーション用)、多角形 (インスタンス セグメンテーション用)、およびシーン (イメージ分類用) に対話形式でラベルを付ける。

深層学習モデルを使用したイメージ分類

Bag of Features アプローチを使用したイメージの分類

注目の例