メインコンテンツ

視覚言語モデル

視覚言語モデルを使用して、イメージ分類、検索、キャプション生成、およびオブジェクト検出タスクを実行する

視覚言語モデル (VLM) は、イメージとテキストを入力として受け取り、テキスト出力を生成したり、対応する注釈付きの境界ボックスを返したりできるマルチモーダル モデルであり、オブジェクト検出や視覚的グラウンディングなどのタスクを可能にします。これらのモデルは、イメージやビデオ内の視覚コンテンツを解析し、付随するテキストを処理し、視覚データとテキスト データの間の相関関係を特定することができます。これらは、言語の文脈の中で視覚情報を解釈する、さまざまなタスクを可能にしますが、これは真の理解に基づいているのではなく、予測アルゴリズムを使用したものです。Computer Vision Toolbox™ は、CLIP、Grounding DINO、Moondream など、以下の用途向けに、事前学習済みの VLM を複数提供しています。

  • イメージ キャプションの生成 — イメージの説明テキストを生成します。

  • 画像検索 — テキストの説明に最もよく一致するイメージを、事前定義されたイメージ セットから特定します。

  • オブジェクト検出 — テキストベースのクエリに基づいてイメージ内のオブジェクトを検出します。

  • イメージ分類 — テキスト カテゴリに基づいてイメージを分類します。

さらに、VLM を使用し、イメージ ラベラー アプリとビデオ ラベラー アプリで説明テキスト プロンプトを使用して、グラウンド トゥルースに自動的にラベル付けできます。開始するには、Get Started with Vision-Language Modelsを参照してください。

Vision-language models enable you to rapidly detect objects in images using natural language text and image input, and perform other vision-language tasks such as image captioning, classification, and retrieval.

アプリ

イメージ ラベラーコンピューター ビジョンの応用に使用するラベル イメージ
ビデオ ラベラーLabel video for computer vision applications

関数

すべて展開する

clipNetworkCreate pretrained CLIP deep learning neural network for vision-language tasks (R2026a 以降)
classifyClassify image using CLIP network (R2026a 以降)
extractImageEmbeddingsExtract feature embeddings from image using CLIP network image encoder (R2026a 以降)
extractTextEmbeddingsExtract text embeddings from search text using CLIP network text encoder (R2026a 以降)
moondreamCreate pretrained Moondream vision-language model (VLM) (R2026a 以降)
captionImageCaption images using Moondream vision-language model (VLM) (R2026a 以降)
groundingDinoObjectDetectorDetect and localize objects using Grounding DINO object detector (R2026a 以降)
detectDetect objects using Grounding DINO object detector (R2026a 以降)

トピック

開始

注目の例