SqueezeSegV2 深層学習ネットワークを使用した LiDAR 点群のセマンティックセグメンテーション

この例では次を使用します。

この例では、オーガナイズド 3 次元 LiDAR 点群データで SqueezeSegV2 セマンティックセグメンテーションネットワークに学習させる方法を示します。

SqueezeSegV2 [1] は、オーガナイズド LiDAR 点群に対してエンドツーエンドのセマンティックセグメンテーションを実行するための畳み込みニューラルネットワーク (CNN) です。この例に示す学習手順では、深層学習ネットワークへの入力として 2 次元球面投影イメージが必要です。

この例では、Hesai and Scale の PandaSet データセット [2] を使用します。PandaSet には、Pandar 64 センサーを使用して取得された、都市のさまざまなシーンに関するアンオーガナイズド LiDAR 点群スキャンが 4800 個格納されています。このデータセットでは、42 個の異なるクラス (自動車、道路、歩行者など) のセマンティックセグメンテーションラベルが用意されています。

LiDAR データセットのダウンロード

この例では、PandaSet のサブセットを使用します。このサブセットには、前処理済みでオーガナイズド点群が 2560 個格納されています。各点群は、64 行 1856 列の行列として指定されます。対応するグラウンドトゥルースには、12 個のクラスのセマンティックセグメンテーションラベルが含まれています。この点群は PCD 形式で保存されており、グラウンドトゥルースデータは PNG 形式で保存されています。このデータセットのサイズは 5.2 GB です。このコードを実行してデータセットをダウンロードします。

url = "https://ssd.mathworks.com/supportfiles/lidar/data/Pandaset_LidarData.tar.gz";
outputFolder = fullfile(tempdir,"Pandaset");
lidarDataTarFile = fullfile(outputFolder,"Pandaset_LidarData.tar.gz");
if ~exist(lidarDataTarFile,"file")
    mkdir(outputFolder);
    disp("Downloading Pandaset Lidar driving data (5.2 GB)...");
    websave(lidarDataTarFile,url);
    untar(lidarDataTarFile,outputFolder);
end
% Check if tar.gz file is downloaded, but not uncompressed.
if (~exist(fullfile(outputFolder,"Lidar"),"file"))...
        &&(~exist(fullfile(outputFolder,"semanticLabels"),"file"))
    untar(lidarDataTarFile,outputFolder);
end
lidarData =  fullfile(outputFolder,"Lidar");
labelsFolder = fullfile(outputFolder,"semanticLabels");

インターネット接続の速度によっては、ダウンロードプロセスに時間がかかることがあります。このコードは、ダウンロードプロセスが完了するまで、MATLAB® の実行を一時停止します。または、Web ブラウザーを使用してデータセットをローカルディスクにダウンロードした後、Pandaset_LidarData フォルダーを抽出することもできます。Pandaset_LidarData には、点群の情報をもつ Lidar フォルダー、直方体ラベルの情報をもつ Cuboids フォルダー、およびセマンティックラベルの情報をもつ semanticLabels フォルダーがそれぞれ含まれています。Web からダウンロードしたファイルを使用するには、コード内の変数 outputFolder をダウンロードしたファイルの場所に変更します。

この例の学習手順は、オーガナイズド点群に関するものです。アンオーガナイズド点群をオーガナイズド点群に変換する方法を示す例については、球面投影の使用による点群のアンオーガナイズドからオーガナイズドへの変換 (Lidar Toolbox)を参照してください。

学習用データの準備

LiDAR 点群とクラスラベルの読み込み

この例に添付されているサポート関数 helperTransformOrganizedPointCloudToTrainingData を使用して、LiDAR 点群から学習データを生成します。この関数は、点群を使用して 5 チャネルの入力イメージを作成します。各学習イメージは、次の 64 x 1856 x 5 の配列として指定されます。

各イメージの高さは 64 ピクセル。
各イメージの幅は 1856 ピクセル。
各イメージには 5 つのチャネルがあります。5 つのチャネルは、点群の 3 次元座標、強度、および範囲を $r = \sqrt{x^{2} + y^{2} + z^{2}}$ で指定します。

学習データの視覚的表現は次のようになります。

5 チャネルの学習イメージを生成します。

imagesFolder = fullfile(outputFolder,"images");
helperTransformOrganizedPointCloudToTrainingData(lidarData,imagesFolder);

Preprocessing data 100% complete

5 チャネルのイメージは MAT ファイルとして保存されます。

処理には時間がかかる場合があります。このコードは、処理が完了するまで MATLAB® の実行を一時停止します。

`imageDatastore` と `pixelLabelDatastore` の作成

imageDatastoreを作成し、カスタム MAT ファイルリーダーであるサポート関数 imageDatastore と helperImageMatReader を使用して、2 次元球面イメージの 5 つのチャネルを抽出して保存します。関数は、サポートファイルとしてこの例に添付されています。

imds = imageDatastore(imagesFolder, ...
    "FileExtensions",".mat", ...
    "ReadFcn",@helperImageMatReader);

pixelLabelDatastore (Computer Vision Toolbox)を使用してピクセルラベルデータストアを作成し、ピクセルラベルイメージからピクセル単位のラベルを保存します。オブジェクトは、各ピクセルラベルをクラス名にマッピングします。この例では、植生、地面、道路、路面標示、歩道、自動車、トラック、その他の車両、歩行者、ガードレール、標識、および建物を対象オブジェクトとし、他のすべてのピクセルは背景とします。それらのクラスを指定し、各クラスに一意のラベル ID を割り当てます。

classNames = ["unlabelled"
              "Vegetation"
              "Ground"
              "Road"
              "RoadMarkings"
              "SideWalk"
              "Car"
              "Truck"
              "OtherVehicle"
              "Pedestrian"
              "RoadBarriers"
              "Signs"
              "Buildings"];
numClasses = numel(classNames);
% Specify label IDs from 1 to the number of classes.
labelIDs = 1 : numClasses;
pxds = pixelLabelDatastore(labelsFolder,classNames,labelIDs);

この例のサポート関数の節で定義されている関数 helperDisplayLidarOverlaidImage を使用して、対応する強度イメージに重ね合わせることにより、ラベル付けされたイメージの 1 つを読み込んで表示します。

% Point cloud (channels 1, 2, and 3 are for location, channel 4 is for intensity, and channel 5 is for range).
I = read(imds);
labelMap = read(pxds);
figure;
helperDisplayLidarOverlaidImage(I,labelMap{1,1},classNames);
title("Ground Truth");

学習セット、検証セット、およびテストセットの準備

この例に添付されているサポート関数 helperPartitionLidarSegmentationDataset を使用して、データを学習セット、検証セット、テストセットに分割します。trainingDataPercentage で指定された割合に従って、学習データを分割できます。残りのデータを 2:1 の比率で検証データとテストデータに分割します。trainingDataPercentage の既定値は 0.7 です。

[imdsTrain,imdsVal,imdsTest,pxdsTrain,pxdsVal,pxdsTest] = ...
helperPartitionLidarSegmentationDataset(imds,pxds,"trainingDataPercentage",0.75);

関数combineを使用して、学習データおよび検証データのピクセルラベルデータストアとイメージデータストアを結合します。

trainingData = combine(imdsTrain,pxdsTrain);
validationData = combine(imdsVal,pxdsVal);

データ拡張

データ拡張は、学習中に元のデータをランダムに変換してネットワークの精度を高めるために使用されます。データ拡張を使用すると、ラベル付き学習サンプルの数を実際に増やさずに、学習データをさらに多様化させることができます。

この例のサポート関数の節で定義されている関数 helperAugmentData でカスタム前処理操作を指定し、関数transformを使用して学習データを拡張します。この関数は、マルチチャネル 2 次元イメージと関連するラベルを水平方向にランダムに反転します。データ拡張を学習データセットにのみ適用します。

augmentedTrainingData = transform(trainingData,@(x) helperAugmentData(x));

ネットワークアーキテクチャの定義

関数 squeezesegv2Network を使用して、標準の SqueezeSegV2 [1] ネットワークを作成します。SqueezeSegV2 ネットワークでは、符号化器サブネットワークが、最大プーリング層が点在する Fire モジュールで構成されます。この配置では、入力イメージの解像度を逐次下げていきます。

次のコードを実行して、ネットワークに学習させるために使用できる dlnetwork を作成します。

inputSize = [64 1856 5];
net = squeezesegv2Network(inputSize, ...
numClasses,"NumEncoderModules",4,"NumContextAggregationModules",2);

ネットワーク精度に対する不均衡なクラス分布の影響を軽減するには、関数focalCrossEntropy (Computer Vision Toolbox)を使用して焦点クロスエントロピー損失を計算します。

lossfcn = @(Y,T) focalCrossEntropy(Y,T);

関数 analyzeNetwork を使用して、ネットワークアーキテクチャを対話的に可視化して表示します。

analyzeNetwork(net);

学習オプションの指定

Adam 最適化アルゴリズムを使用してネットワークに学習させます。関数trainingOptionsを使用して、ハイパーパラメーターを指定します。

maxEpochs = 30;
initialLearningRate = 1e-3;
miniBatchSize = 8;
l2reg = 2e-4;
options = trainingOptions("adam", ...
    "InitialLearnRate",initialLearningRate, ...
    "L2Regularization",l2reg, ...
    "MaxEpochs",maxEpochs, ...
    "MiniBatchSize",miniBatchSize, ...
    "LearnRateSchedule","piecewise", ...
    "LearnRateDropFactor",0.1, ...
    "LearnRateDropPeriod",10, ...
    "ValidationData",validationData, ...
    "Plots","training-progress", ...
    "VerboseFrequency",20);

メモ: miniBatchSize の値を小さくして、学習時のメモリ使用量を制御します。

ネットワークの学習

doTraining 引数を true に設定することで、手動でネットワークに学習させることができます。ネットワークに学習させるのに CPU または GPU を使用できます。GPU を使用するには、Parallel Computing Toolbox™ とサポートされている GPU デバイスが必要です。サポートされているデバイスの詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。そうでない場合は、事前学習済みのネットワークを読み込みます。

doTraining = false;
if doTraining
    [net,info] = trainnet(trainingData,net,lossfcn,options);
else
    load("trainedSqueezesegV2NetPandaset.mat","net");
end

テスト点群での結果の予測

学習済みのネットワークを使用して、テスト点群での結果を予測し、セグメンテーション結果を表示します。まず、5 チャネルの入力イメージを読み取り、学習済みのネットワークを使用してラベルを予測します。

セグメンテーションを重ね合わせて Figure を表示します。

I = read(imdsTest);
predictedResult = pcsemanticseg(I,net,"Classes",classNames);
figure;
helperDisplayLidarOverlaidImage(I,predictedResult,classNames);
title("Semantic Segmentation Result");

この例のサポート関数の節で定義されている関数 helperDisplayLabelOverlaidPointCloud を使用して、点群にセグメンテーション結果を表示します。

figure;
helperDisplayLabelOverlaidPointCloud(I,predictedResult);                          
view([39.2 90.0 60]);
title("Semantic Segmentation Result on Point Cloud");

ネットワークの評価

関数evaluateSemanticSegmentation (Computer Vision Toolbox)を使用して、テストセットの結果からセマンティックセグメンテーションメトリクスを計算します。

outputLocation = fullfile(tempdir,"output");
if ~exist(outputLocation,"dir")
    mkdir(outputLocation);
end
pxdsResults = pcsemanticseg(imdsTest,net, ...
    "MiniBatchSize",4, ...
    'Classes',classNames, ...
    "WriteLocation",outputLocation, ...
    "Verbose",false);
metrics = evaluateSemanticSegmentation(pxdsResults,pxdsTest,"Verbose",false);

Intersection over Union (IoU) メトリクスを使用して、クラスごとのオーバーラップの量を測定できます。

関数evaluateSemanticSegmentation (Computer Vision Toolbox)は、データセット全体、個々のクラス、および各テストイメージのメトリクスを返します。データセットレベルでメトリクスを表示するには、metrics.DataSetMetrics プロパティを使用します。

metrics.DataSetMetrics

ans=1×5 table
    GlobalAccuracy    MeanAccuracy    MeanIoU    WeightedIoU    MeanBFScore
    ______________    ____________    _______    ___________    ___________

       0.90841          0.62681       0.55962      0.83617        0.7496

データセットメトリクスは、ネットワークパフォーマンスの概要を提供します。各クラスが全体的なパフォーマンスに与える影響を確認するには、metrics.ClassMetrics プロパティを使用して各クラスのメトリクスを検査します。

metrics.ClassMetrics

ans=13×3 table
                    Accuracy      IoU      MeanBFScore
                    ________    _______    ___________

    unlabelled       0.95192    0.91005       0.9998  
    Vegetation       0.80199    0.67147      0.95679  
    Ground            0.8019    0.69126      0.58207  
    Road             0.94394    0.86021      0.99445  
    RoadMarkings     0.35373    0.32485      0.73811  
    SideWalk         0.84127    0.71618      0.96062  
    Car              0.91935    0.80644       0.9549  
    Truck            0.36991    0.33177      0.49032  
    OtherVehicle     0.69863    0.64865      0.49127  
    Pedestrian       0.26226    0.20657      0.46686  
    RoadBarriers    0.071211     0.0699      0.18235  
    Signs            0.18146    0.16258      0.44265  
    Buildings        0.95099    0.87512      0.98617

全体的なネットワークのパフォーマンスは良好ですが、RoadMarkings や Truck などのクラスのクラスメトリクスは、パフォーマンスを改善するため学習データがさらに必要であることを示しています。

サポート関数

データを拡張する関数

関数 helperAugmentData は、球面イメージと関連するラベルを水平方向にランダムに反転します。

function out = helperAugmentData(inp)
% Apply random horizontal flipping.
out = cell(size(inp));
% Randomly flip the five-channel image and pixel labels horizontally.
I = inp{1};
sz = size(I);
tform = randomAffine2d("XReflection",true);
rout = affineOutputView(sz,tform,"BoundsStyle","centerOutput");
out{1} = imwarp(I,tform,"OutputView",rout);
out{2} = imwarp(inp{2},tform,"OutputView",rout);
end

2 次元球面イメージに LiDAR セグメンテーションマップを重ねて表示する関数

関数 helperDisplayLidarOverlaidImage は、セマンティックセグメンテーションマップを 2 次元球面イメージの強度チャネルに重ね合わせます。この関数は、より見やすくなるように、重ね合わされたイメージのサイズも変更します。

function helperDisplayLidarOverlaidImage(lidarImage,labelMap,classNames)
%  helperDisplayLidarOverlaidImage(lidarImage, labelMap, classNames)
%  displays the overlaid image. lidarImage is a five-channel lidar input.
%  labelMap contains pixel labels and classNames is an array of label
%  names.
% Read the intensity channel from the lidar image.
intensityChannel = uint8(lidarImage(:,:,4));
% Load the lidar color map.
cmap = helperPandasetColorMap;
% Overlay the labels over the intensity image.
B = labeloverlay(intensityChannel,labelMap,"Colormap",cmap,"Transparency",0.4);
% Resize for better visualization.
B = imresize(B,"Scale",[3 1],"method","nearest");
imshow(B);
helperPixelLabelColorbar(cmap,classNames);
end

3 次元点群に LiDAR セグメンテーションマップを重ねて表示する関数

関数 helperDisplayLabelOverlaidPointCloud は、オーガナイズド 3 次元点群にセグメンテーション結果を重ね合わせます。

function helperDisplayLabelOverlaidPointCloud(I,predictedResult)
%  helperDisplayLabelOverlaidPointCloud(I, predictedResult)
%  displays the overlaid pointCloud object. I is the 5 channels organized
%  input image. predictedResult contains pixel labels.
ptCloud = pointCloud(I(:,:,1:3),"Intensity",I(:,:,4));
cmap = helperPandasetColorMap;
B = ...
labeloverlay(uint8(ptCloud.Intensity),predictedResult,"Colormap",cmap,"Transparency",0.4);
pc = pointCloud(ptCloud.Location,"Color",B);
figure;
ax = pcshow(pc);
set(ax,"XLim",[-70 70],"YLim",[-70 70]);
zoom(ax,3.5);
end

LiDAR カラーマップを定義する関数

関数 helperPandasetColorMap は、LiDAR データセットで使用されるカラーマップを定義します。

function cmap = helperPandasetColorMap
cmap = [[30 30 30];      % Unlabeled
        [0 255 0];       % Vegetation
        [255 150 255]; % Ground
        [255 0 255];     % Road
        [255 0 0];       % Road Markings
        [90 30 150];   % Sidewalk
        [245 150 100];   % Car
        [250 80 100];  % Truck
        [150 60 30];   % Other Vehicle
        [255 255 0];   % Pedestrian
        [0 200 255];   % Road Barriers
        [170 100 150];   % Signs
        [30 30 255]];  % Building
cmap = cmap./255;
end

ピクセルラベルカラーバーを表示する関数

関数 helperPixelLabelColorbar は、現在の軸にカラーバーを追加します。カラーバーは、クラス名を色で表示するように書式設定されています。

function helperPixelLabelColorbar(cmap,classNames)
colormap(gca,cmap);
% Add a colorbar to the current figure.
c = colorbar("peer",gca);
% Use class names for tick marks.
c.TickLabels = classNames;
numClasses = size(classNames,1);
% Center tick labels.
c.Ticks = 1/(numClasses*2):1/numClasses:1;
% Remove tick marks.
c.TickLength = 0;
end

参考文献

[1] Wu, Bichen, Xuanyu Zhou, Sicheng Zhao, Xiangyu Yue, and Kurt Keutzer. “SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentation from a LiDAR Point Cloud.” In 2019 International Conference on Robotics and Automation (ICRA), 4376–82. Montreal, QC, Canada: IEEE, 2019.https://doi.org/10.1109/ICRA.2019.8793495.

[2] Hesai and Scale.PandaSet. https://scale.com/open-datasets/pandaset

SqueezeSegV2 深層学習ネットワークを使用した LiDAR 点群のセマンティック セグメンテーション

LiDAR データ セットのダウンロード