オブジェクトの検出とセグメント化

AI モデルを使用して、オブジェクト検出、テキスト認識 (OCR)、バーコード認識、基準マーカー認識、セマンティックセグメンテーション、およびインスタンスセグメンテーションを実行する

Computer Vision Toolbox™ は、AI モデルを使用したオブジェクト検出、テキスト検出 (OCR)、セグメンテーションのためのエンドツーエンドのワークフローをサポートします。イメージラベラーアプリとビデオラベラーアプリを使用し、対話形式および AI アシストによるイメージやビデオのラベル付けを行って、グラウンドトゥルースデータを作成することから始められます。オブジェクト検出のために、Computer Vision Toolbox は YOLO、RTMDet、SSD、Grounding DINO などの事前学習済み深層学習モデルを提供しており、これらをそのまま使用することも、転移学習を使用して用途に合わせて微調整することもできます。オブジェクト検出器アナライザーアプリを使用して、オブジェクト検出のパフォーマンスメトリクスを評価することもできます。オブジェクト検出の詳細については、深層学習を使用したオブジェクト検出入門を参照してください。

セマンティックセグメンテーションには、U-Net、DeepLab v3+、BiseNet v2、3 次元 U-Net などの事前学習済み深層学習モデルを使用できます。セマンティックセグメンテーションの詳細については、深層学習を使用したセマンティックセグメンテーション入門を参照してください。インスタンスセグメンテーションには、SOLOv2 や Mask R-CNN などの事前学習済み深層学習モデルを使用できます。インスタンスセグメンテーションの詳細については、Get Started with Instance Segmentation Using Deep Learningを参照してください。

テキスト検出には、MSER 特徴検出器または CRAFT 深層学習モデルを使用し、検出されたテキストを OCR を使用して認識することができます。詳細については、Getting Started with OCRを参照してください。Computer Vision Toolbox には、人間の姿勢推定用に事前学習済みの HRNet キーポイント検出器も用意されており、これを他のオブジェクトのカスタムキーポイント検出用に微調整することも可能です。詳細については、Getting Started with HRNetを参照してください。