メインコンテンツ

オブジェクトの検出

YOLO や Grounding DINO などの事前学習済み AI モデルを使用してグラウンド トゥルースにラベルを付け、オブジェクトを検出し、転移学習を使用してカスタム検出器を作成する

Computer Vision Toolbox™ は、深層学習と従来型のコンピューター ビジョン技術の両方を使用して、オブジェクト検出モデルの作成、学習、評価、および展開を行うための包括的なツールと関数を提供します。イメージ ラベラー アプリとビデオ ラベラー アプリを使用して、ラベル付きのグラウンド トゥルースを作成することから始められます。これらのアプリは、対話形式および AI アシストによる、イメージやビデオ フレーム内のオブジェクトを囲む境界ボックスの注釈付けをサポートしています。

ラベル付きデータを入手したら、YOLO v2、YOLO v3、YOLO v4、YOLOX、RTMDet、SSD、Grounding DINO など、幅広い事前学習済み深層学習オブジェクト検出器から選択できます。ツールボックスには、人物認識や顔認識タスクのための、peopleDetectorfaceDetector といった専用の検出器も含まれています。これらのモデルは、推論に直接使用することも、転移学習の出発点として使用して特定のデータ セットや用途に合わせてモデルをカスタマイズすることもできます。詳細については、深層学習を使用したオブジェクト検出入門を参照してください。従来のオブジェクト検出手法のために、ツールボックスには集約チャネル特徴 (ACF) およびカスケード (Viola-Jones) オブジェクト検出器のサポートが含まれています。

ツールボックスは、転移学習を使用してオブジェクト検出器に学習させるための関数を提供します。さらに、ツールボックスは、学習データの管理と前処理機能に加え、現実世界の変動をシミュレーションすることでロバストなモデル学習を実現するデータ拡張ツールも提供します。詳細については、深層学習用イメージ前処理とイメージ拡張の入門を参照してください。

事前学習済みモデルまたはカスタム モデルを使用して検出結果を生成した後、オブジェクト検出器アナライザー アプリを使用して、検出結果をグラウンド トゥルースと比較できます。このアプリを使用すると、さまざまな intersection over union (IOU) しきい値にわたって、混同行列、適合率、再現率、F1 スコア、平均適合率 (mAP) などの主要なパフォーマンス メトリクスを評価できます。あるいは、evaluateObjectDetection 関数を使用して、検出パフォーマンス メトリクスを評価することもできます。詳細については、Evaluate Object Detector PerformanceGet Started with Object Detector Analyzer Appを参照してください。

Three images: the first contains labeled boats, the second a diagram of a neural network, and the third the keypoints from a person detector overlaid on the image of the people it has detected.

アプリ

イメージ ラベラーコンピューター ビジョンの応用に使用するラベル イメージ
ビデオ ラベラーLabel video for computer vision applications
オブジェクト検出器アナライザーInteractively visualize and evaluate object detection results against ground truth (R2026a 以降)

関数

すべて展開する

深層学習検出器

groundingDinoObjectDetectorDetect and localize objects using Grounding DINO object detector (R2026a 以降)
rtmdetObjectDetectorDetect objects using RTMDet object detector (R2024b 以降)
ssdObjectDetectorDetect objects using SSD deep learning detector
yolov2ObjectDetectorDetect objects using YOLO v2 object detector
yolov3ObjectDetectorDetect objects using YOLO v3 object detector
yolov4ObjectDetectorDetect objects using YOLO v4 object detector (R2022a 以降)
yoloxObjectDetectorYOLOX オブジェクト検出器を使用したオブジェクトの検出 (R2023b 以降)
peopleDetectorDetect people using pretrained deep learning object detector (R2024b 以降)
faceDetectorDetect faces using pretrained RetinaFace face detector (R2025a 以降)
detectTextCRAFTDetect texts in images by using CRAFT deep learning model (R2022a 以降)
imfindcirclesYOLOFind circles using YOLOX object detector (R2026a 以降)

特徴ベースの検出器

acfObjectDetectorDetect objects using aggregate channel features
peopleDetectorACF集約チャネル特徴を使用した人物の検出
vision.CascadeObjectDetectorViola-Jones アルゴリズムを使用したオブジェクトの検出
vision.ForegroundDetector混合ガウス モデルを使用した前景の検出
vision.BlobAnalysis連結された領域のプロパティ

検出オブジェクトの選択

selectStrongestBboxSelect strongest bounding boxes from overlapping clusters using nonmaximal suppression (NMS)
selectStrongestBboxMulticlassSelect strongest multiclass bounding boxes from overlapping clusters using nonmaximal suppression (NMS)

学習データの読み込み

boxLabelDatastoreDatastore for bounding box label data
groundTruthグラウンド トゥルース ラベル データ
imageDatastoreイメージ データのデータストア
objectDetectorTrainingDataオブジェクト検出器用の学習データの作成
combine複数のデータストアのデータを統合

深層学習ベースのオブジェクト検出器の学習

trainSSDObjectDetectorTrain SSD deep learning object detector
trainYOLOv2ObjectDetectorTrain YOLO v2 object detector
trainYOLOv3ObjectDetectorTrain YOLO v3 object detector (R2024a 以降)
trainYOLOv4ObjectDetectorTrain YOLO v4 object detector (R2022a 以降)
trainYOLOXObjectDetectorTrain YOLOX object detector (R2023b 以降)

特徴ベースのオブジェクト検出器の学習

trainACFObjectDetectorACF オブジェクト検出器に学習させる
trainCascadeObjectDetectorカスケード型オブジェクト検出器モデルの学習

深層学習用の学習データの拡張と前処理

balanceBoxLabelsBalance bounding box labels for object detection
bboxcrop境界ボックスのトリミング
bboxeraseRemove bounding boxes
bboxresize境界ボックスのサイズ変更
bboxwarpApply geometric transformation to bounding boxes
bbox2pointsConvert rectangle to corner points list
blockLocationsWithROISelect image block locations that contain bounding box ROIs (R2025a 以降)
imwarpイメージへの幾何学的変換の適用
imcropイメージのトリミング
imresizeイメージのサイズ変更
randomAffine2dランダムな 2 次元アフィン変換の作成
centerCropWindow2d四角形の中央トリミング ウィンドウの作成
randomWindow2dRandomly select rectangular region in image
integralImage2 次元積分イメージの計算
transformデータストアの変換

R-CNN (Regions with Convolutional Neural Networks)

roiAlignLayerNon-quantized ROI pooling layer for Mask-CNN
roiMaxPooling2dLayerNeural network layer used to output fixed-size feature maps for rectangular ROIs
roialignNon-quantized ROI pooling of dlarray data (R2021b 以降)

YOLO v2 (You Only Look Once version 2)

yolov2TransformLayerCreate transform layer for YOLO v2 object detection network
spaceToDepthLayer空間から深さへの変換層

焦点損失

focalCrossEntropyCompute focal cross-entropy loss

SSD (シングル ショット検出器)

ssdMergeLayerCreate SSD merge layer for object detection

アンカー ボックス

estimateAnchorBoxesEstimate anchor boxes for deep learning object detectors
evaluateObjectDetectionEvaluate object detection data set against ground truth (R2023b 以降)
objectDetectionMetricsObject detection quality metrics (R2023b 以降)
mAPObjectDetectionMetricMean average precision (mAP) metric for object detection (R2024a 以降)
bboxOverlapRatio境界ボックスのオーバーラップ率の計算
bboxPrecisionRecallCompute bounding box precision and recall against ground truth
driseExplain object detection network predictions using D-RISE (R2024a 以降)
cuboid2imgProject cuboids from 3-D world coordinates to 2-D image coordinates (R2022b 以降)
insertObjectAnnotationトゥルーカラー イメージ、グレースケール イメージ、またはビデオへの注釈付け
insertObjectMask Insert masks in image or video stream
insertShapeイメージまたはビデオへの形状の挿入
insertTextイメージまたはビデオへのテキストの挿入
showShapeDisplay shapes on image, video, or point cloud

ブロック

Deep Learning Object Detector学習済み深層学習オブジェクト検出器を使用したオブジェクトの検出 (R2021b 以降)

トピック

オブジェクト検出用のグラウンド トゥルースと学習データの作成

  • イメージ ラベラー入門
    四角形の ROI (オブジェクト検出用)、ピクセル (セマンティック セグメンテーション用)、多角形 (インスタンス セグメンテーション用)、およびシーン (イメージ分類用) に対話形式でラベルを付ける。
  • ビデオ ラベラー入門
    ビデオおよびイメージのシーケンス内の四角形の ROI (オブジェクト検出用)、ピクセル (セマンティック セグメンテーション用)、多角形 (インスタンス セグメンテーション用)、およびシーン (イメージ分類用) に対話形式でラベルを付ける。
  • オブジェクト検出およびセマンティック セグメンテーション用の学習データ
    イメージ ラベラービデオ ラベラーを使用して、オブジェクト検出器やセマンティック セグメンテーションの学習データを作成します。
  • 深層学習用イメージ前処理とイメージ拡張の入門
    サイズ変更などの確定的演算を使用して深層学習アプリケーション用にデータを前処理する。あるいは、ランダム トリミングなどのランダム演算を使用して学習データを拡張する。

事前学習済み検出器を使用したオブジェクトの検出

オブジェクト検出結果の評価

注目の例