視覚言語モデル

視覚言語モデルを使用して、イメージ分類、検索、キャプション生成、およびオブジェクト検出タスクを実行する

視覚言語モデル (VLM) は、イメージとテキストを入力として受け取り、テキスト出力を生成したり、対応する注釈付きの境界ボックスを返したりできるマルチモーダルモデルであり、オブジェクト検出や視覚的グラウンディングなどのタスクを可能にします。これらのモデルは、イメージやビデオ内の視覚コンテンツを解析し、付随するテキストを処理し、視覚データとテキストデータの間の相関関係を特定することができます。これらは、言語の文脈の中で視覚情報を解釈する、さまざまなタスクを可能にしますが、これは真の理解に基づいているのではなく、予測アルゴリズムを使用したものです。Computer Vision Toolbox™ は、CLIP、Grounding DINO、Moondream など、以下の用途向けに、事前学習済みの VLM を複数提供しています。

イメージキャプションの生成 — イメージの説明テキストを生成します。
画像検索 — テキストの説明に最もよく一致するイメージを、事前定義されたイメージセットから特定します。
オブジェクト検出 — テキストベースのクエリに基づいてイメージ内のオブジェクトを検出します。
イメージ分類 — テキストカテゴリに基づいてイメージを分類します。

さらに、VLM を使用し、イメージラベラーアプリとビデオラベラーアプリで説明テキストプロンプトを使用して、グラウンドトゥルースに自動的にラベル付けできます。開始するには、Get Started with Vision-Language Modelsを参照してください。

Vision-language models enable you to rapidly detect objects in images using natural language text and image input, and perform other vision-language tasks such as image captioning, classification, and retrieval.

アプリ

イメージラベラー	コンピュータービジョンの応用に使用するラベルイメージ
ビデオラベラー	Label video for computer vision applications

関数

すべて展開する

イメージの分類と検索

`clipNetwork`	Create pretrained CLIP deep learning neural network for vision-language tasks (R2026a 以降)
`classify`	Classify image using CLIP network (R2026a 以降)
`extractImageEmbeddings`	Extract feature embeddings from image using CLIP network image encoder (R2026a 以降)
`extractTextEmbeddings`	Extract text embeddings from search text using CLIP network text encoder (R2026a 以降)

イメージキャプションの生成

`moondream`	Create pretrained Moondream vision-language model (VLM) (R2026a 以降)
`captionImage`	Caption images using Moondream vision-language model (VLM) (R2026a 以降)

テキスト誘導型オブジェクト検出

`groundingDinoObjectDetector`	Detect and localize objects using Grounding DINO object detector (R2026a 以降)
`detect`	Detect objects using Grounding DINO object detector (R2026a 以降)

トピック

開始

Get Started with Vision-Language Models
Use vision-language models for multimodal tasks such as image captioning, zero-shot classification, and image search.