objectDetectorTrainingData

オブジェクト検出器用の学習データの作成

ページ内をすべて折りたたむ

構文

[imds,blds] = objectDetectorTrainingData(gTruth)

[___,arrds] = objectDetectorTrainingData(gTruth)

trainingDataTable = objectDetectorTrainingData(gTruth)

[___] = objectDetectorTrainingData(gTruth,Name=Value)

説明

例

[imds,blds] = objectDetectorTrainingData(gTruth) は、指定されたグラウンドトゥルースからイメージデータストアとボックスラベルデータストアの学習データを作成します。この関数は、1 つ以上の注釈付きオブジェクトを含むイメージのみをグラウンドトゥルース入力から選択します。

combine(imds,blds) を使用してイメージとボックスラベルのデータストアを統合し、学習に必要なデータストアを作成することができます。統合されたデータストアは、trainACFObjectDetector、trainYOLOv2ObjectDetector、trainYOLOv4ObjectDetector、trainFastRCNNObjectDetector、trainFasterRCNNObjectDetector、および trainRCNNObjectDetector などの学習関数で使用します。

この関数は、複数の MATLAB^® ワーカーを使用する並列計算をサポートします。Computer Vision Toolbox の基本設定ダイアログを使用して並列計算を有効にします。

例

[___,arrds] = objectDetectorTrainingData(gTruth) は、ラベルに関連付けられた属性とサブラベルを含むデータストア arrds も返します。

例

trainingDataTable = objectDetectorTrainingData(gTruth) は、指定されたグラウンドトゥルースから学習データの table を返します。gTruth は、groundTruth オブジェクトの配列です。table は、Computer Vision Toolbox™ の学習関数を使用したオブジェクト検出器の学習に使用できます。

[___] = objectDetectorTrainingData(gTruth,Name=Value) は、前の構文にある引数の任意の組み合わせに加えて、名前と値の引数を 1 つ以上使用してオプションを指定します。たとえば、Verbose=True は、ワークスペース環境への表示を有効にします。

gTruth の groundTruth オブジェクトを、ビデオファイル、カスタムデータソース、または異なるカスタム読み取り関数を指定した imageDatastore オブジェクトを使用して作成する場合、任意の組み合わせの名前と値の引数を指定できます。イメージコレクションまたはイメージシーケンスデータソースから groundTruth オブジェクトを作成した場合は、SamplingFactor と LabelType の名前と値の引数のみ指定できます。

例

すべて折りたたむ

YOLO v2 車両検出器の学習

この例では次を使用します。

ライブスクリプトを開く

YOLO v2 ネットワークに基づいて車両検出器に学習させます。

イメージを含むフォルダーをワークスペースに追加します。

imageDir = fullfile(matlabroot,'toolbox','vision','visiondata','vehicles');
addpath(imageDir);

車両のグラウンドトゥルースデータを読み込みます。

data = load('vehicleTrainingGroundTruth.mat');
gTruth = data.vehicleTrainingGroundTruth;

学習用の layerGraph オブジェクトを含む検出器を読み込みます。

vehicleDetector = load('yolov2VehicleDetector.mat');
lgraph = vehicleDetector.lgraph

lgraph = 
  LayerGraph with properties:

         Layers: [25×1 nnet.cnn.layer.Layer]
    Connections: [24×2 table]
     InputNames: {'input'}
    OutputNames: {'yolov2OutputLayer'}

グラウンドトゥルースオブジェクトを使用して、イメージデータストアとボックスラベルデータストアを作成します。

[imds,bxds] = objectDetectorTrainingData(gTruth);

データストアを統合します。

cds = combine(imds,bxds);

学習オプションを設定します。

options = trainingOptions('sgdm', ...
       'InitialLearnRate', 0.001, ...
       'Verbose',true, ...
       'MiniBatchSize',16, ...
       'MaxEpochs',30, ...
       'Shuffle','every-epoch', ...
       'VerboseFrequency',10);

検出器に学習させます。

[detector,info] = trainYOLOv2ObjectDetector(cds,lgraph,options);

*************************************************************************
Training a YOLO v2 Object Detector for the following object classes:

* vehicle

Training on single CPU.
|========================================================================================|
|  Epoch  |  Iteration  |  Time Elapsed  |  Mini-batch  |  Mini-batch  |  Base Learning  |
|         |             |   (hh:mm:ss)   |     RMSE     |     Loss     |      Rate       |
|========================================================================================|
|       1 |           1 |       00:00:00 |         7.50 |         56.2 |          0.0010 |
|       1 |          10 |       00:00:02 |         1.73 |          3.0 |          0.0010 |
|       2 |          20 |       00:00:04 |         1.58 |          2.5 |          0.0010 |
|       2 |          30 |       00:00:06 |         1.36 |          1.9 |          0.0010 |
|       3 |          40 |       00:00:08 |         1.13 |          1.3 |          0.0010 |
|       3 |          50 |       00:00:09 |         1.01 |          1.0 |          0.0010 |
|       4 |          60 |       00:00:11 |         0.95 |          0.9 |          0.0010 |
|       4 |          70 |       00:00:13 |         0.84 |          0.7 |          0.0010 |
|       5 |          80 |       00:00:15 |         0.84 |          0.7 |          0.0010 |
|       5 |          90 |       00:00:17 |         0.70 |          0.5 |          0.0010 |
|       6 |         100 |       00:00:19 |         0.65 |          0.4 |          0.0010 |
|       7 |         110 |       00:00:21 |         0.73 |          0.5 |          0.0010 |
|       7 |         120 |       00:00:23 |         0.60 |          0.4 |          0.0010 |
|       8 |         130 |       00:00:24 |         0.63 |          0.4 |          0.0010 |
|       8 |         140 |       00:00:26 |         0.64 |          0.4 |          0.0010 |
|       9 |         150 |       00:00:28 |         0.57 |          0.3 |          0.0010 |
|       9 |         160 |       00:00:30 |         0.54 |          0.3 |          0.0010 |
|      10 |         170 |       00:00:32 |         0.52 |          0.3 |          0.0010 |
|      10 |         180 |       00:00:33 |         0.45 |          0.2 |          0.0010 |
|      11 |         190 |       00:00:35 |         0.55 |          0.3 |          0.0010 |
|      12 |         200 |       00:00:37 |         0.56 |          0.3 |          0.0010 |
|      12 |         210 |       00:00:39 |         0.55 |          0.3 |          0.0010 |
|      13 |         220 |       00:00:41 |         0.52 |          0.3 |          0.0010 |
|      13 |         230 |       00:00:42 |         0.53 |          0.3 |          0.0010 |
|      14 |         240 |       00:00:44 |         0.58 |          0.3 |          0.0010 |
|      14 |         250 |       00:00:46 |         0.47 |          0.2 |          0.0010 |
|      15 |         260 |       00:00:48 |         0.49 |          0.2 |          0.0010 |
|      15 |         270 |       00:00:50 |         0.44 |          0.2 |          0.0010 |
|      16 |         280 |       00:00:52 |         0.45 |          0.2 |          0.0010 |
|      17 |         290 |       00:00:54 |         0.47 |          0.2 |          0.0010 |
|      17 |         300 |       00:00:55 |         0.43 |          0.2 |          0.0010 |
|      18 |         310 |       00:00:57 |         0.44 |          0.2 |          0.0010 |
|      18 |         320 |       00:00:59 |         0.44 |          0.2 |          0.0010 |
|      19 |         330 |       00:01:01 |         0.38 |          0.1 |          0.0010 |
|      19 |         340 |       00:01:03 |         0.41 |          0.2 |          0.0010 |
|      20 |         350 |       00:01:04 |         0.39 |          0.2 |          0.0010 |
|      20 |         360 |       00:01:06 |         0.42 |          0.2 |          0.0010 |
|      21 |         370 |       00:01:08 |         0.42 |          0.2 |          0.0010 |
|      22 |         380 |       00:01:10 |         0.39 |          0.2 |          0.0010 |
|      22 |         390 |       00:01:12 |         0.37 |          0.1 |          0.0010 |
|      23 |         400 |       00:01:13 |         0.37 |          0.1 |          0.0010 |
|      23 |         410 |       00:01:15 |         0.35 |          0.1 |          0.0010 |
|      24 |         420 |       00:01:17 |         0.29 |      8.3e-02 |          0.0010 |
|      24 |         430 |       00:01:19 |         0.36 |          0.1 |          0.0010 |
|      25 |         440 |       00:01:21 |         0.28 |      7.9e-02 |          0.0010 |
|      25 |         450 |       00:01:22 |         0.29 |      8.1e-02 |          0.0010 |
|      26 |         460 |       00:01:24 |         0.28 |      8.0e-02 |          0.0010 |
|      27 |         470 |       00:01:26 |         0.27 |      7.1e-02 |          0.0010 |
|      27 |         480 |       00:01:28 |         0.25 |      6.3e-02 |          0.0010 |
|      28 |         490 |       00:01:30 |         0.24 |      5.9e-02 |          0.0010 |
|      28 |         500 |       00:01:31 |         0.29 |      8.4e-02 |          0.0010 |
|      29 |         510 |       00:01:33 |         0.35 |          0.1 |          0.0010 |
|      29 |         520 |       00:01:35 |         0.31 |      9.3e-02 |          0.0010 |
|      30 |         530 |       00:01:37 |         0.18 |      3.1e-02 |          0.0010 |
|      30 |         540 |       00:01:38 |         0.22 |      4.6e-02 |          0.0010 |
|========================================================================================|
Detector training complete.
*************************************************************************

テストイメージを読み取ります。

I = imread('detectcars.png');

検出器を実行します。

[bboxes,scores] = detect(detector,I);

結果を表示します。

if(~isempty(bboxes))
  I = insertObjectAnnotation(I,'rectangle',bboxes,scores);
end
figure
imshow(I)

ACF ベースの一時停止標識検出器の学習

ライブスクリプトを開く

学習データを使用して、ACF ベースの一時停止標識用オブジェクト検出器に学習させます。

MATLAB パスにイメージを含むフォルダーを追加します。

imageDir = fullfile(matlabroot, 'toolbox', 'vision', 'visiondata', 'stopSignImages');
addpath(imageDir);

グラウンドトゥルースデータを読み込みます。これには、一時停止標識と自動車のデータが含まれます。

load('stopSignsAndCarsGroundTruth.mat','stopSignsAndCarsGroundTruth')

ラベル定義を表示して、グラウンドトゥルースに含まれるラベルタイプを確認します。

stopSignsAndCarsGroundTruth.LabelDefinitions

ans=3×3 table
        Name          Type        Group  
    ____________    _________    ________

    {'stopSign'}    Rectangle    {'None'}
    {'carRear' }    Rectangle    {'None'}
    {'carFront'}    Rectangle    {'None'}

学習用の一時停止標識データを選択します。

stopSignGroundTruth = selectLabelsByName(stopSignsAndCarsGroundTruth,'stopSign');

一時停止標識オブジェクト検出器のための学習データを作成します。

trainingData = objectDetectorTrainingData(stopSignGroundTruth);
summary(trainingData)

Variables:

    imageFilename: 41x1 cell array of character vectors

    stopSign: 41x1 cell

ACF ベースのオブジェクト検出器に学習させます。

acfDetector = trainACFObjectDetector(trainingData,'NegativeSamplesFactor',2);

ACF Object Detector Training
The training will take 4 stages. The model size is 34x31.
Sample positive examples(~100% Completed)
Compute approximation coefficients...Completed.
Compute aggregated channel features...Completed.
--------------------------------------------
Stage 1:
Sample negative examples(~100% Completed)
Compute aggregated channel features...Completed.
Train classifier with 42 positive examples and 84 negative examples...Completed.
The trained classifier has 19 weak learners.
--------------------------------------------
Stage 2:
Sample negative examples(~100% Completed)
Found 84 new negative examples for training.
Compute aggregated channel features...Completed.
Train classifier with 42 positive examples and 84 negative examples...Completed.
The trained classifier has 20 weak learners.
--------------------------------------------
Stage 3:
Sample negative examples(~100% Completed)
Found 84 new negative examples for training.
Compute aggregated channel features...Completed.
Train classifier with 42 positive examples and 84 negative examples...Completed.
The trained classifier has 54 weak learners.
--------------------------------------------
Stage 4:
Sample negative examples(~100% Completed)
Found 84 new negative examples for training.
Compute aggregated channel features...Completed.
Train classifier with 42 positive examples and 84 negative examples...Completed.
The trained classifier has 61 weak learners.
--------------------------------------------
ACF object detector training is completed. Elapsed time is 14.0736 seconds.

ACF ベースの検出器をサンプルイメージでテストします。

I = imread('stopSignTest.jpg');
bboxes = detect(acfDetector,I);

検出したオブジェクトを表示します。

annotation = acfDetector.ModelName;
I = insertObjectAnnotation(I,'rectangle',bboxes,annotation);

figure 
imshow(I)

Figure contains an axes object. The axes object contains an object of type image.

パスからイメージフォルダーを削除します。

rmpath(imageDir);

groundTruth からのすべてのラベル属性の読み取り

ライブスクリプトを開く

イメージの場所、ラベル定義、およびラベルデータを読み込みます。

data = load('labelsWithAttributes.mat');
images = fullfile(matlabroot,'toolbox','vision','visiondata','stopSignImages', data.imageFilenames);

グラウンドトゥルースオブジェクトを作成します。

dataSource = groundTruthDataSource(images);
gTruth = groundTruth(groundTruthDataSource(images), data.labeldefs, data.labelData);

グラウンドトゥルースオブジェクトを使用して、イメージデータストア、ボックスラベルデータストア、および配列データストアを作成します。

[imds, blds, arrds] = objectDetectorTrainingData(gTruth);

すべての属性を読み取ります。

readall(arrds)

ans=2×1 cell array
    {1x1 struct}
    {1x1 struct}

入力引数

すべて折りたたむ

`gTruth` — グラウンドトゥルースデータ
スカラー | `groundTruth` オブジェクトの配列

グラウンドトゥルースデータ。スカラー、または groundTruth オブジェクトの配列として指定します。groundTruth オブジェクトを使用して、既存のグラウンドトゥルースデータからグラウンドトゥルースオブジェクトを作成できます。

並列計算を有効にして groundTruth のカスタムデータソースを使用すると、リーダー関数は MATLAB ワーカーのプールを使用してデータソースからイメージを並列で読み取ると想定されます。

名前と値の引数

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、コンマを使用して名前と値をそれぞれ区切り、Name を引用符で囲みます。

例: (SamplingFactor=5) は、サブサンプリング係数を 5 に設定します。

`SamplingFactor` — イメージをサブサンプリングするための係数
`auto` (既定値) | 整数 | 整数のベクトル

グラウンドトゥルースデータソースのイメージをサブサンプリングするための係数。auto、整数、または整数のベクトルとして指定します。サンプリング係数が N の場合、返される学習データには、グラウンドトゥルースデータソースのイメージが N 個おきに含まれます。関数は、ラベルデータが空のグラウンドトゥルースイメージを無視します。投影された直方体データを使用して SamplingFactor を設定するには、名前と値の引数 LabelType を labelType.ProjectedCuboid に指定しなければなりません。

サンプリングされたデータを使用して、同じシーンとラベルをもつイメージのシーケンスなどの重複データを減らします。これは、学習時間の短縮にも役立ちます。

値	サンプリング係数
`"auto"`	関数は、ビデオなどのタイムスタンプ付きのデータソースを係数 `5` でサンプリングします。イメージのコレクションの場合の係数は `1` です。
整数	すべてのデータに適用するサンプリング係数を手動で設定します。
整数のベクトル	グラウンドトゥルースオブジェクトの配列を入力すると、関数は対応するベクトル要素で指定されたサンプリング係数を使用します。

`LabelType` — グラウンドトゥルースデータから抽出するラベルのタイプ
`"labelType.Rectangle"` (既定値) | `"labelType.RotatedRectangle"` | `"labelType.ProjectedCuboid"` | 文字ベクトル

グラウンドトゥルースデータから抽出するラベルのタイプ。"labelType.Rectangle"、"labelType.RotatedRectangle"、または "labelType.ProjectedCuboid" として指定します。学習させるオブジェクト検出器のタイプと一致するラベルのタイプを使用します。

メモ

関数 trainYOLOv2ObjectDetector は、"labelType.RotatedRectangle" をサポートしていません。

`WriteLocation` — フォルダーの名前
`pwd` (現在の作業フォルダー) (既定値) | string スカラー | 文字ベクトル

抽出されたイメージを書き込むフォルダー名。string スカラーまたは文字ベクトルとして指定します。指定されたフォルダーが存在している必要があります。また、そのフォルダーへの書き込み権限が必要です。

この引数は、次の場合にのみ適用されます。

ビデオファイルまたはカスタムデータソースを使用して作成された groundTruth オブジェクト。
異なるカスタム read 関数を指定して imageDatastore を使用して作成された groundTruth オブジェクトの配列。

次の場合、関数はこの引数を無視します。

入力 groundTruth オブジェクトがイメージシーケンスデータソースから作成された。
入力 groundTruth オブジェクトの配列すべてに、同じカスタム read 関数を使用するイメージデータストアが含まれている。
データストアを含む入力 groundTruth オブジェクトのいずれかで、既定の read 関数を使用している。

`ImageFormat` — イメージファイル形式
`PNG` (既定値) | string スカラー | 文字ベクトル

イメージファイル形式。string スカラーまたは文字ベクトルとして指定します。ファイル形式は imwrite によってサポートされていなければなりません。

この引数は、次の場合にのみ適用されます。

ビデオファイルまたはカスタムデータソースを使用して作成された groundTruth オブジェクト。
異なるカスタム read 関数を指定して imageDatastore を使用して作成された groundTruth オブジェクトの配列。

次の場合、関数はこの引数を無視します。

入力 groundTruth オブジェクトがイメージシーケンスデータソースから作成された。
入力 groundTruth オブジェクトの配列すべてに、同じカスタム read 関数を使用するイメージデータストアが含まれている。
データストアを含む入力 groundTruth オブジェクトのいずれかで、既定の read 関数を使用している。

`NamePrefix` — 出力イメージファイル名の接頭辞
string スカラー | 文字ベクトル

出力ファイル名の接頭辞。string スカラーまたは文字ベクトルとして指定します。イメージファイルは次のように命名されます。

<name_prefix><source_number>_<image_number>.<image_format>

既定の値では、イメージ抽出元のデータソースの名前を使用します。ビデオおよびカスタムデータソースでは strcat(sourceName,"_")、イメージデータストアでは "datastore" を使用します。

この引数は、次の場合にのみ適用されます。

ビデオファイルまたはカスタムデータソースを使用して作成された groundTruth オブジェクト。
異なるカスタム read 関数を指定して imageDatastore を使用して作成された groundTruth オブジェクトの配列。

次の場合、関数はこの引数を無視します。

入力 groundTruth オブジェクトがイメージシーケンスデータソースから作成された。
入力 groundTruth オブジェクトの配列すべてに、同じカスタム read 関数を使用するイメージデータストアが含まれている。
データストアを含む入力 groundTruth オブジェクトのいずれかで、既定の read 関数を使用している。

`Verbose` — 学習の進行状況を表示するフラグ
`true` (`1`) (既定値) | `false` (`0`)

MATLAB コマンドラインに学習の進行状況を表示するためのフラグ。true (1) または false (0) として指定します。このプロパティは、ビデオファイルまたはカスタムデータソースを使用して作成された groundTruth オブジェクトにのみ適用されます。

出力引数

すべて折りたたむ

`imds` — イメージデータストア
`imageDatastore` オブジェクト

イメージデータストア。gTruth オブジェクトから抽出されたイメージを含む imageDatastore オブジェクトとして返されます。imds 内のイメージには、注釈付きラベルのクラスが少なくとも 1 つ含まれています。関数は、注釈が付けられていないイメージを無視します。

`blds` — ボックスラベルデータストア
`boxLabelDatastore` オブジェクト

ボックスラベルデータストア。boxLabelDatastore オブジェクトとして返されます。データストアには、ROI ラベル名の categorical ベクトルと、M 個の境界ボックスの M 行 4 列の行列が含まれています。境界ボックスの位置とサイズは、[x,y,width,height] 形式の double の M x 4 要素ベクトルとして表されます。

`arrds` — 配列データストア
`struct` 配列

配列データストア。struct 配列として返されます。struct のフィールドには、ボックスラベルデータストア blds 内の対応するラベルの属性とサブラベル名が格納されます。サブラベルデータは、サブラベル属性に対応するフィールドとともに、Position フィールドを使用して struct にパッケージ化されます。

`trainingDataTable` — 学習データの table
table

学習データの table。2 列以上の table として返されます。table の最初の列には、パスを含むイメージファイル名が含まれています。imread でサポートされている任意の形式のグレースケールまたはトゥルーカラー (RGB) イメージを指定できます。残りの各列は、ROI ラベルに対応し、そのラベルのイメージにおける境界ボックスの位置 (最初の列で指定) が含まれます。境界ボックスは、[x,y,width,height] の形式で M 個の境界ボックスの M 行 4 列の行列として指定します。[x,y] は左上隅の位置を指定します。グラウンドトゥルース table の作成には、イメージラベラーアプリまたはビデオラベラーアプリを使用できます。

出力 table は、入力 gTruth オブジェクトに存在するサブラベルや属性データを無視します。

バージョン履歴

R2017a で導入

すべて展開する

R2022b: 3 次元ワールド座標から 2 次元イメージ座標への直方体の射影

3 次元投影された直方体ラベルをサポートするように更新されました。
抽出された属性とサブラベルを 3 番目の出力として返します。属性とサブラベルは、配列データストアとしてパッケージ化されます。

参考

objectDetectorTrainingData

構文

説明

例

YOLO v2 車両検出器の学習

ACF ベースの一時停止標識検出器の学習

groundTruth からのすべてのラベル属性の読み取り

入力引数

gTruth — グラウンド トゥルース データ スカラー | groundTruth オブジェクトの配列

名前と値の引数

SamplingFactor — イメージをサブサンプリングするための係数 auto (既定値) | 整数 | 整数のベクトル

LabelType — グラウンド トゥルース データから抽出するラベルのタイプ "labelType.Rectangle" (既定値) | "labelType.RotatedRectangle" | "labelType.ProjectedCuboid" | 文字ベクトル

WriteLocation — フォルダーの名前 pwd (現在の作業フォルダー) (既定値) | string スカラー | 文字ベクトル

ImageFormat — イメージ ファイル形式 PNG (既定値) | string スカラー | 文字ベクトル

NamePrefix — 出力イメージ ファイル名の接頭辞 string スカラー | 文字ベクトル

Verbose — 学習の進行状況を表示するフラグ true (1) (既定値) | false (0)

出力引数

imds — イメージ データストア imageDatastore オブジェクト

blds — ボックス ラベル データストア boxLabelDatastore オブジェクト

arrds — 配列データストア struct 配列

trainingDataTable — 学習データの table table

バージョン履歴

R2022b: 3 次元ワールド座標から 2 次元イメージ座標への直方体の射影

参考

アプリ

関数

オブジェクト

トピック

`gTruth` — グラウンドトゥルースデータ
スカラー | `groundTruth` オブジェクトの配列

`SamplingFactor` — イメージをサブサンプリングするための係数
`auto` (既定値) | 整数 | 整数のベクトル

`LabelType` — グラウンドトゥルースデータから抽出するラベルのタイプ
`"labelType.Rectangle"` (既定値) | `"labelType.RotatedRectangle"` | `"labelType.ProjectedCuboid"` | 文字ベクトル

`WriteLocation` — フォルダーの名前
`pwd` (現在の作業フォルダー) (既定値) | string スカラー | 文字ベクトル

`ImageFormat` — イメージファイル形式
`PNG` (既定値) | string スカラー | 文字ベクトル

`NamePrefix` — 出力イメージファイル名の接頭辞
string スカラー | 文字ベクトル

`Verbose` — 学習の進行状況を表示するフラグ
`true` (`1`) (既定値) | `false` (`0`)

`imds` — イメージデータストア
`imageDatastore` オブジェクト

`blds` — ボックスラベルデータストア
`boxLabelDatastore` オブジェクト

`arrds` — 配列データストア
`struct` 配列

`trainingDataTable` — 学習データの table
table