SSD 深層学習を使用したオブジェクト検出

この例では次を使用します。

この例では、シングルショット検出器 (SSD) に学習させる方法を説明します。

概要

深層学習は、検出タスクに必要なイメージの特徴を自動的に学習する強力な機械学習手法です。深層学習を使用したオブジェクト検出には、You Only Look Once (YOLO)、Faster R-CNN、SSD など、いくつかの方法があります。この例では、関数trainSSDObjectDetector (Computer Vision Toolbox)を使用して SSD 車両検出器に学習させます。

事前学習済みの検出器のダウンロード

学習の完了を待たなくて済むように、事前学習済みの検出器をダウンロードします。検出器に学習させる場合は、変数 doTraining を true に設定します。

doTraining = false;
if ~doTraining && ~exist("ssdResNet50VehicleExample_22b.mat","file")
    disp("Downloading pretrained detector (44 MB)...");
    pretrainedURL = "https://www.mathworks.com/supportfiles/vision/data/ssdResNet50VehicleExample_22b.mat";
    websave("ssdResNet50VehicleExample_22b.mat",pretrainedURL);
end

データセットの読み込み

この例では、295 個のイメージを含んだ小さな車両データセットを使用します。これらのイメージの多くは、Caltech の Cars 1999 データセットおよび Cars 2001 データセットからのものです。Pietro Perona 氏によって作成されたもので、許可を得て使用しています。各イメージには、1 または 2 個のラベル付けされた車両インスタンスが含まれています。小さなデータセットは SSD の学習手順を調べるうえで役立ちますが、実際にロバストな検出器に学習させるにはラベル付けされたイメージがより多く必要になります。

unzip vehicleDatasetImages.zip
data = load("vehicleDatasetGroundTruth.mat");
vehicleDataset = data.vehicleDataset;

学習データは table に保存されています。最初の列には、イメージファイルへのパスが含まれています。残りの列には、車両の ROI ラベルが含まれています。データの最初の数行を表示します。

vehicleDataset(1:4,:)

ans=4×2 table
              imageFilename                   vehicle     
    _________________________________    _________________

    {'vehicleImages/image_00001.jpg'}    {[220 136 35 28]}
    {'vehicleImages/image_00002.jpg'}    {[175 126 61 45]}
    {'vehicleImages/image_00003.jpg'}    {[108 120 45 33]}
    {'vehicleImages/image_00004.jpg'}    {[124 112 38 36]}

データセットを、検出器に学習させるための学習セットと検出器を評価するためのテストセットに分割します。データの 60% を学習用に選択します。残りを評価用に使用します。

rng(0);
shuffledIndices = randperm(height(vehicleDataset));
idx = floor(0.6 * length(shuffledIndices) );
trainingData = vehicleDataset(shuffledIndices(1:idx),:);
testData = vehicleDataset(shuffledIndices(idx+1:end),:);

imageDatastore と boxLabelDatastore を使用し、学習中および評価中にイメージとラベルデータを読み込むためのデータストアを作成します。

imdsTrain = imageDatastore(trainingData{:,"imageFilename"});
bldsTrain = boxLabelDatastore(trainingData(:,"vehicle"));

imdsTest = imageDatastore(testData{:,"imageFilename"});
bldsTest = boxLabelDatastore(testData(:,"vehicle"));

イメージデータストアとボックスラベルデータストアを組み合わせます。

trainingData = combine(imdsTrain,bldsTrain);
testData = combine(imdsTest,bldsTest);

学習イメージとボックスラベルのうちの 1 つを表示します。

data = read(trainingData);
I = data{1};
bbox = data{2};
annotatedImage = insertShape(I,"rectangle",bbox);
annotatedImage = imresize(annotatedImage,2);
figure
imshow(annotatedImage)

Figure contains an axes object. The hidden axes object contains an object of type image.

SSD オブジェクト検出ネットワークの作成

ssdObjectDetector (Computer Vision Toolbox)関数を使用し、SSD オブジェクト検出器を自動的に作成します。ssdObjectDetector 関数では、SSD オブジェクト検出器をパラメーター化するいくつかの入力 (特徴抽出ネットワークとも呼ばれるベースネットワーク、入力サイズ、クラス名、アンカーボックス、検出ネットワークソースなど) を指定する必要があります。入力ベースネットワークの特定の層を使用して、検出ネットワークソースを指定します。検出ネットワークは、ssdObjectDetector 関数によって入力ベースネットワークに自動的に接続されます。

通常、特徴抽出ネットワークは事前学習済みの CNN です (詳細については事前学習済みの深層ニューラルネットワークを参照)。この例では特徴抽出に ResNet-50 を使用します。用途の要件によって、MobileNet v2 や ResNet-18 など、その他の事前学習済みのネットワークも使用できます。検出サブネットワークは特徴抽出ネットワークと比べて小さい CNN であり、少数の畳み込み層と SSD に固有の層で構成されます。

net = imagePretrainedNetwork("resnet50");

ネットワーク入力サイズを選択する際には、学習イメージのサイズ、および選択したサイズでのデータの処理によって発生する計算コストを考慮します。可能な場合、学習イメージのサイズに近いネットワーク入力サイズを選択します。ただし、この例を実行する計算コストを削減するため、ネットワーク入力サイズを [300 300 3] に指定します。学習中、trainSSDObjectDetector によって、ネットワーク入力サイズに合わせて学習イメージのサイズが自動的に変更されます。

inputSize = [300 300 3];

検出するオブジェクトクラスを定義します。

classNames = "vehicle";

この例では、事前学習済みの ResNet-50 ベースネットワークを変更してロバスト性を向上させます。まず、ResNet-50 ネットワークにおいて、"activation_40_relu" 層の後ろにある層を削除します。これにより、全結合層も削除されます。次に、ベースネットワークをよりロバストにするため、"activation_40_relu" 層の後ろに 7 つの畳み込み層を追加します。

% Find layer index of "activation_40_relu"
idx = find(ismember({net.Layers.Name},"activation_40_relu"));

% Remove all layers after "activation_40_relu" layer
removedLayers = {net.Layers(idx+1:end).Name};
ssdNet = removeLayers(net,removedLayers);

weightsInitializerValue = "glorot";
biasInitializerValue = "zeros";

% Append extra layers on top of a base network.
extraLayers = [];

% Add conv6_1 and corresponding reLU
filterSize = 1;
numFilters = 256;
numChannels = 1024;
conv6_1 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Name="conv6_1", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu6_1 = reluLayer(Name="relu6_1");
extraLayers = [extraLayers; conv6_1; relu6_1];

% Add conv6_2 and corresponding reLU
filterSize = 3;
numFilters = 512;
numChannels = 256;
conv6_2 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Padding=iSamePadding(filterSize), ...
    Stride=[2 2], ...
    Name="conv6_2", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu6_2 = reluLayer(Name="relu6_2");
extraLayers = [extraLayers; conv6_2; relu6_2];

% Add conv7_1 and corresponding reLU
filterSize = 1;
numFilters = 128;
numChannels = 512;
conv7_1 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Name="conv7_1", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu7_1 = reluLayer(Name="relu7_1");
extraLayers = [extraLayers; conv7_1; relu7_1];

% Add conv7_2 and corresponding reLU
filterSize = 3;
numFilters = 256;
numChannels = 128;
conv7_2 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Padding=iSamePadding(filterSize), ...
    Stride=[2 2], ...
    Name="conv7_2", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu7_2 = reluLayer(Name="relu7_2");
extraLayers = [extraLayers; conv7_2; relu7_2];

% Add conv8_1 and corresponding reLU
filterSize = 1;
numFilters = 128;
numChannels = 256;
conv8_1 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Name="conv8_1", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu8_1 = reluLayer(Name="relu8_1");
extraLayers = [extraLayers; conv8_1; relu8_1];

% Add conv8_2 and corresponding reLU
filterSize = 3;
numFilters = 256;
numChannels = 128;
conv8_2 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Name="conv8_2", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu8_2 = reluLayer(Name="relu8_2");
extraLayers = [extraLayers; conv8_2; relu8_2];

% Add conv9_1 and corresponding reLU
filterSize = 1;
numFilters = 128;
numChannels = 256;
conv9_1 = convolution2dLayer(filterSize,numFilters, ...
    NumChannels=numChannels, ...
    Padding=iSamePadding(filterSize), ...
    Name="conv9_1", ...
    WeightsInitializer=weightsInitializerValue, ...
    BiasInitializer=biasInitializerValue);
relu9_1 = reluLayer(Name="relu9_1");
extraLayers = [extraLayers; conv9_1; relu9_1];

if ~isempty(extraLayers)
    lastLayerName = ssdNet.Layers(end).Name;
    ssdNet = addLayers(ssdNet, extraLayers);
    ssdNet = connectLayers(ssdNet, lastLayerName, extraLayers(1).Name);
end

上記の変更は ResNet-50 バックボーンに固有のものであることに注意してください。ResNet-101 や ResNet-18 などのさまざまなバックボーンについて、ssdObjectDetector で動作するように変更することもできます。これを行うには、SSD の定義済み検出ヘッドとまったく同じになるように特定の調整を行わなければなりません。これらの他のネットワークを正常に変更するには、たとえば ResNet-101 を使用するのであれば、最初に analyzeNetwork(imagePretrainedNetwork("resnet101")) を使用します。

さまざまな畳み込みサイズに対応する多数の (res3a, res3b1... res4b2....res5b.... という名前の) 残差ブロックが存在します。SSD オブジェクト検出器を正しく構築するには、これらの層を除去し、選択した検出ヘッドが SSD の論文と同じになるようにする必要があります [1]。

ResNet-101 の場合、"res4b22_relu" の後の層を削除し、"res3b3_relu"、"res4b22_relu"、"relu6_2"、"relu7_2"、"relu8_2" を検出ヘッドとして使用します。

検出ネットワークソースを追加するネットワーク層の名前を指定します。

detNetworkSource = ["activation_22_relu", "activation_40_relu", "relu6_2", "relu7_2", "relu8_2"];

アンカーボックスを指定します。アンカーボックスの数は、検出ネットワークソース内の層の数と同じでなければなりません。

anchorBoxes = {[60,30;30,60;60,21;42,30]; ...
               [111,60;60,111;111,35;64,60;111,42;78,60]; ...
               [162,111;111,162;162,64;94,111;162,78;115,111]; ...
               [213,162;162,213;213,94;123,162;213,115;151,162]; ...
               [264,213;213,264;264,151;187,213]};

SSD オブジェクト検出器オブジェクトを作成します。

detector = ssdObjectDetector(ssdNet,classNames,anchorBoxes, ...
    DetectionNetworkSource=detNetworkSource,InputSize=inputSize,ModelName="ssdVehicle");

データ拡張

データ拡張は、学習中に元のデータをランダムに変換してネットワークの精度を高めるために使用されます。データ拡張を使用すると、ラベル付き学習サンプルの数を実際に増やさずに、学習データをさらに多様化させることができます。transform を使用して、以下のように学習データを拡張します。

イメージおよび関連するボックスラベルを水平方向にランダムに反転。
イメージおよび関連するボックスラベルをランダムにスケーリング。
イメージの色にジッターを付加。

データ拡張はテストデータには適用されないことに注意してください。理想的には、テストデータは元のデータを代表するもので、バイアスのない評価を行うために変更なしで使用されなければなりません。

augmentedTrainingData = transform(trainingData,@augmentData);

同じイメージを繰り返し読み取り、拡張された学習データを可視化します。

augmentedData = cell(4,1);
for k = 1:4
    data = read(augmentedTrainingData);
    augmentedData{k} = insertShape(data{1},"rectangle",data{2});
    reset(augmentedTrainingData);
end

figure
montage(augmentedData,BorderSize=10)

Figure contains an axes object. The hidden axes object contains an object of type image.

学習データの前処理

拡張された学習データを前処理して学習用に準備します。

preprocessedTrainingData = transform(augmentedTrainingData, ...
    @(data)preprocessData(data,inputSize));

前処理された学習データを読み取ります。

data = read(preprocessedTrainingData);

イメージと境界ボックスを表示します。

I = data{1};
bbox = data{2};
annotatedImage = insertShape(I,"rectangle",bbox);
annotatedImage = imresize(annotatedImage,2);
figure
imshow(annotatedImage)

Figure contains an axes object. The hidden axes object contains an object of type image.

SSD オブジェクト検出器の学習

trainingOptions を使用してネットワーク学習オプションを指定します。CheckpointPath を一時的な場所に設定します。これにより、学習プロセス中に部分的に学習させた検出器を保存できます。停電やシステム障害などで学習が中断された場合に、保存したチェックポイントから学習を再開できます。

options = trainingOptions("sgdm", ...
        MiniBatchSize=16, ....
        InitialLearnRate=1e-3, ...
        LearnRateSchedule="piecewise", ...
        LearnRateDropPeriod=30, ...
        LearnRateDropFactor=0.8, ...
        MaxEpochs=20, ...
        VerboseFrequency=50, ...        
        CheckpointPath=tempdir, ...
        Shuffle="every-epoch");

doTraining が true である場合は、trainSSDObjectDetector (Computer Vision Toolbox)関数を使用して SSD オブジェクト検出器に学習させます。そうでない場合は、事前学習済みのネットワークを読み込みます。

if doTraining
    % Train the SSD detector.
    [detector,info] = trainSSDObjectDetector(preprocessedTrainingData,detector,options);
else
    % Load pretrained detector for the example.
    pretrained = load("ssdResNet50VehicleExample_22b.mat");
    detector = pretrained.detector;
end

このネットワークの学習には、12 GB のメモリを搭載した NVIDIA™ Titan X GPU を使用して約 2 時間かかります。学習時間は使用するハードウェアによって異なります。GPU のメモリがこれより少ない場合、メモリ不足が発生する可能性があります。これが発生した場合は、trainingOptions 関数を使用して MiniBatchSize を減らします。

迅速なテストとして、1 つのテストイメージ上で検出器を実行します。

data = read(testData);
I = data{1,1};
I = imresize(I,inputSize(1:2));
[bboxes,scores] = detect(detector,I);

結果を表示します。

I = insertObjectAnnotation(I,"rectangle",bboxes,scores);
figure
imshow(I)

Figure contains an axes object. The hidden axes object contains an object of type image.

テストセットを使用した検出器の評価

大規模なイメージセットで学習済みのオブジェクト検出器を評価し、パフォーマンスを測定します。Computer Vision Toolbox™ には、平均適合率や対数平均ミス率などの一般的なメトリクスを測定するためのオブジェクト検出器評価関数 (evaluateObjectDetection (Computer Vision Toolbox)) が用意されています。この例では、平均適合率メトリクスを使用してパフォーマンスを評価します。平均適合率は、検出器が正しい分類を実行できること (適合率) と検出器がすべての関連オブジェクトを検出できること (再現率) を示す単一の数値です。

学習データと同じ前処理変換をテストデータに適用します。データ拡張はテストデータには適用されないことに注意してください。テストデータは元のデータを代表するもので、バイアスのない評価を行うために変更なしで使用されなければなりません。

preprocessedTestData = transform(testData,@(data)preprocessData(data,inputSize));

すべてのテストイメージに対して検出器を実行します。できるだけ多くのオブジェクトを検出するには、検出しきい値を低い値に設定します。これは、検出器の適合率を、再現率の値の全範囲にわたって評価するのに役立ちます。

detectionThreshold = 0.01;
detectionResults = detect(detector,preprocessedTestData, ...
    Threshold=detectionThreshold,MiniBatchSize=32);

平均適合率メトリクスを使用してオブジェクト検出器を評価します。

metrics = evaluateObjectDetection(detectionResults,preprocessedTestData);
[precision,recall] = precisionRecall(metrics,ClassName="vehicle");
AP = averagePrecision(metrics,ClassName="vehicle");

適合率/再現率 (PR) の曲線は、さまざまなレベルの再現率における検出器の適合率を示しています。すべてのレベルの再現率で適合率が 1 になるのが理想的です。より多くのデータを使用すると平均適合率を向上できますが、学習に必要な時間が長くなる場合があります。PR 曲線をプロットします。

figure
plot(recall{:},precision{:})
xlabel("Recall")
ylabel("Precision")
grid on
title("Average Precision = "+AP)

Figure contains an axes object. The axes object with title Average Precision = 0.94774, xlabel Recall, ylabel Precision contains an object of type line.

コード生成

検出器に学習させて評価したら、GPU Coder™ を使用して ssdObjectDetector のコードを生成できます。詳細については、シングルショットマルチボックス検出器を使用したオブジェクト検出のコードの生成 (Computer Vision Toolbox)の例を参照してください。

サポート関数

function B = augmentData(A)
% Apply random horizontal flipping, and random X/Y scaling. Boxes that get
% scaled outside the bounds are clipped if the overlap is above 0.25. Also,
% jitter image color.
B = cell(size(A));
I = A{1};
sz = size(I);
if numel(sz)==3 && sz(3) == 3
    I = jitterColorHSV(I,...
        Contrast=0.2,...
        Hue=0,...
        Saturation=0.1,...
        Brightness=0.2);
end
% Randomly flip and scale image.
tform = randomAffine2d(XReflection=true,Scale=[1 1.1]);  
rout = affineOutputView(sz,tform,BoundsStyle="CenterOutput");    
B{1} = imwarp(I,tform,OutputView=rout);
% Sanitize boxes, if needed. This helper function is attached as a
% supporting file. Open the example in MATLAB to access this function.
A{2} = helperSanitizeBoxes(A{2});    
% Apply same transform to boxes.
[B{2},indices] = bboxwarp(A{2},tform,rout,OverlapThreshold=0.25);    
B{3} = A{3}(indices);  
% Return original data only when all boxes are removed by warping.
if isempty(indices)
    B = A;
end
end

function data = preprocessData(data,targetSize)
% Resize image and bounding boxes to the targetSize.
sz = size(data{1},[1 2]);
scale = targetSize(1:2)./sz;
data{1} = imresize(data{1},targetSize(1:2));
% Sanitize boxes, if needed. This helper function is attached as a
% supporting file. Open the example in MATLAB to access this function.
data{2} = helperSanitizeBoxes(data{2});
% Resize boxes.
data{2} = bboxresize(data{2},scale);
end

function p = iSamePadding(FilterSize)
    p = floor(FilterSize / 2);
end

参考文献

[1] Liu, Wei, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng Yang Fu, and Alexander C. Berg. "SSD: Single shot multibox detector." In 14th European Conference on Computer Vision, ECCV 2016. Springer Verlag, 2016.

参考

アプリ

ディープネットワークデザイナー

関数

trainSSDObjectDetector (Computer Vision Toolbox) | analyzeNetwork | combine | transform | evaluateObjectDetection (Computer Vision Toolbox) | trainingOptions | detect (Computer Vision Toolbox) | read

オブジェクト

ssdObjectDetector (Computer Vision Toolbox) | boxLabelDatastore (Computer Vision Toolbox) | imageDatastore

トピック

シングルショットマルチボックス検出器を使用したオブジェクト検出のコードの生成 (Computer Vision Toolbox)
SSD マルチボックス検出入門 (Computer Vision Toolbox)

SSD 深層学習を使用したオブジェクト検出

概要

事前学習済みの検出器のダウンロード

データ セットの読み込み

SSD オブジェクト検出ネットワークの作成

データ拡張

学習データの前処理

SSD オブジェクト検出器の学習

テスト セットを使用した検出器の評価

コード生成

サポート関数

参考文献

参考

アプリ

関数

オブジェクト

トピック

データセットの読み込み

テストセットを使用した検出器の評価