segnetLayers

セマンティックセグメンテーションの SegNet 層の作成

ページ内をすべて折りたたむ

構文

lgraph = segnetLayers(imageSize,numClasses,model)

lgraph = segnetLayers(imageSize,numClasses,encoderDepth)

lgraph = segnetLayers(imageSize,numClasses,encoderDepth,Name,Value)

説明

例

lgraph = segnetLayers(imageSize,numClasses,model) は、事前学習済みの model の層および重みで事前に初期化されている SegNet 層 lgraph を返します。

SegNet は、セマンティックイメージセグメンテーション用の畳み込みニューラルネットワークです。ネットワークは pixelClassificationLayer を使用して、入力イメージ内のすべてのピクセルのカテゴリカルラベルを予測します。

segnetLayers を使用して、SegNet のネットワークアーキテクチャを作成します。Deep Learning Toolbox™ の関数 trainNetwork (Deep Learning Toolbox) を使用してネットワークに学習させなければなりません。

lgraph = segnetLayers(imageSize,numClasses,encoderDepth) は、指定された符号化器の深さを使用して設定された、初期化されていない SegNet 層を返します。

lgraph = segnetLayers(imageSize,numClasses,encoderDepth,Name,Value) は、Name,Value ペアの引数を 1 つ以上指定したオプションを追加で使用して SegNet 層を返します。

例

すべて折りたたむ

SegNet の学習

この例では次を使用します。

ライブスクリプトを開く

学習イメージとピクセルラベルを読み込みます。

dataSetDir = fullfile(toolboxdir('vision'),'visiondata','triangleImages');
imageDir = fullfile(dataSetDir,'trainingImages');
labelDir = fullfile(dataSetDir,'trainingLabels');

学習イメージを保持するイメージデータストアを作成します。

imds = imageDatastore(imageDir);

クラス名と関連するラベル ID を定義します。

classNames = ["triangle", "background"];
labelIDs   = [255 0];

学習イメージのグラウンドトゥルースピクセルラベルを保持するピクセルラベルデータストアを作成します。

pxds = pixelLabelDatastore(labelDir,classNames,labelIDs);

SegNet 層を作成します。

imageSize = [32 32];
numClasses = 2;
lgraph = segnetLayers(imageSize,numClasses,2)

lgraph = 
  LayerGraph with properties:

     InputNames: {'inputImage'}
    OutputNames: {'pixelLabels'}
         Layers: [31x1 nnet.cnn.layer.Layer]
    Connections: [34x2 table]

セマンティックセグメンテーションネットワークに学習させるために、イメージデータとピクセルラベルデータを組み合わせます。

ds = combine(imds,pxds);

学習オプションをセットアップします。

options = trainingOptions('sgdm','InitialLearnRate',1e-3, ...
      'MaxEpochs',20,'VerboseFrequency',10);

ネットワークに学習をさせます。

net = trainNetwork(ds,lgraph,options)

Training on single CPU.
Initializing input data normalization.
|========================================================================================|
|  Epoch  |  Iteration  |  Time Elapsed  |  Mini-batch  |  Mini-batch  |  Base Learning  |
|         |             |   (hh:mm:ss)   |   Accuracy   |     Loss     |      Rate       |
|========================================================================================|
|       1 |           1 |       00:00:06 |       39.86% |       0.7677 |          0.0010 |
|      10 |          10 |       00:00:36 |       50.84% |       0.7366 |          0.0010 |
|      20 |          20 |       00:01:04 |       64.71% |       0.6910 |          0.0010 |
|========================================================================================|
Training finished: Max epochs completed.

net = 
  DAGNetwork with properties:

         Layers: [31x1 nnet.cnn.layer.Layer]
    Connections: [34x2 table]
     InputNames: {'inputImage'}
    OutputNames: {'pixelLabels'}

ネットワークを表示します。

plot(lgraph)

Figure contains an axes object. The axes object contains an object of type graphplot.

カスタムの符号化器と復号化器の深さを使用した SegNet の作成

この例では次を使用します。

ライブスクリプトを開く

深さ 4 の符号化器/復号化器で SegNet 層を作成します。

imageSize = [480 640 3];
numClasses = 5;
encoderDepth = 4;
lgraph = segnetLayers(imageSize,numClasses,encoderDepth)

lgraph = 
  LayerGraph with properties:

     InputNames: {'inputImage'}
    OutputNames: {'pixelLabels'}
         Layers: [59x1 nnet.cnn.layer.Layer]
    Connections: [66x2 table]

ネットワークを表示します。

figure
plot(lgraph)

Figure contains an axes object. The axes object contains an object of type graphplot.

入力引数

すべて折りたたむ

`imageSize` — ネットワーク入力のイメージサイズ
2 要素ベクトル | 3 要素ベクトル

ネットワーク入力のイメージサイズ。以下として指定します。

[height, width] の形式の 2 要素ベクトル。
[height, width, depth] の形式の 3 要素ベクトル。depth はイメージチャネルの数です。depth を、RGB イメージの場合は 3、グレースケールイメージの場合は 1、マルチスペクトルイメージとハイパースペクトルイメージの場合はチャネル数に設定します。

`numClasses` — クラス数
1 より大きい整数

セマンティックセグメンテーションのクラス数。1 より大きい整数で指定します。

`model` — 事前学習済みのネットワークモデル
`'vgg16'` | `'vgg19'`

事前学習済みのネットワークモデル。'vgg16' または 'vgg19' として指定します。これらのモデルには深さ 5 の符号化器があります。'vgg16' モデルを使用する場合は、RGB 入力を指定しなければなりません。関数 im2gray を使用して、グレースケールイメージを RGB に変換できます。

`encoderDepth` — 符号化器の深さ
正の整数

符号化器の深さ。正の整数で指定します。

SegNet は、符号化器と対応する復号化器のサブネットワークで構成されます。これらのネットワークの深さが、入力イメージの処理時のダウンサンプル回数またはアップサンプル回数を決定します。符号化器ネットワークは、入力イメージを係数 2^D でダウンサンプリングします。D は encoderDepth の値です。復号化器ネットワークは符号化器ネットワーク出力を係数 2^D でアップサンプリングします。

名前と値の引数

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、コンマを使用して名前と値をそれぞれ区切り、Name を引用符で囲みます。

例: 'NumConvolutionLayers',1

`NumConvolutionLayers` — 畳み込み層のセクション数
`2` (既定値) | 正の整数 | 正の整数のベクトル

各符号化器と復号化器のセクション内の畳み込み層の数。正の整数または正の整数のベクトルとして指定します。

`NumConvolutionLayers`	説明
スカラー	すべての符号化器と復号化器のセクションで同じ数の層が使用されます。
ベクトル	`NumConvolutionLayers` の k 番目の要素は、k 番目の符号化器セクションおよび対応する復号化器セクションの畳み込み層の数です。一般的な値は、[1, 3] の範囲にあります。

`NumOutputChannels` — 出力チャネル数
`64` (既定値) | 正の整数 | 正の整数のベクトル

SegNet 符号化器ネットワークの各セクションの出力チャネルの数。正の整数または正の整数のベクトルとして指定します。segnetLayers は、対応する符号化器セクションに一致するように復号化器の出力チャネルの数を設定します。

`NumOutputChannels`	説明
スカラー	すべての符号化器と復号化器のセクションで同じ数の出力チャネルが使用されます。
ベクトル	`NumOutputChannels` の k 番目の要素は、k 番目の符号化器セクションおよび対応する復号化器セクションの出力チャネルの数です。

`FilterSize` — 畳み込み層のフィルターサイズ
`3` (既定値) | 正の奇数の整数 | 正の奇数の整数の 2 要素の行ベクトル

畳み込み層のフィルターサイズ。正の奇数の整数または正の奇数の整数の 2 要素の行ベクトルとして指定します。一般的な値は、[3, 7] の範囲にあります。

`FilterSize`	説明
スカラー	フィルターは正方形です。
2 要素の行ベクトル	フィルターのサイズは [height width] です。

出力引数

すべて折りたたむ

`lgraph` — 層
`LayerGraph` オブジェクト

SegNet ネットワークアーキテクチャを表す層。layerGraph (Deep Learning Toolbox) オブジェクトとして返されます。

ヒント

SegNet 符号化器と復号化器のサブネットワーク内のセクションは、畳み込み層、バッチ正規化層および ReLU 層で構成されます。
すべての畳み込み層は、バイアス項がゼロに固定されるように構成されます。
符号化器と復号化器のサブネットワーク内の畳み込み層の重みは、'MSRA' 重み初期化メソッドを使用して初期化されます。'vgg16' または 'vgg19' モデルの場合、復号化器サブネットワークのみが MSRA を使用して初期化されます。[1]
segnetLayers によって生成されたネットワークは、trainNetwork (Deep Learning Toolbox) で学習を行った後、深層学習用の GPU コード生成をサポートします。詳細と例についてはコード生成 (Deep Learning Toolbox)を参照してください。

参照

[1] He, K., X. Zhang, S. Ren, and J. Sun. "Delving Deep Into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification." Proceedings of the IEEE International Conference on Computer Vision. 2015, 1026–1034.

[2] Badrinarayanan, V., A. Kendall, and R. Cipolla. "Segnet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation." arXiv. Preprint arXiv: 1511.0051, 2015.

拡張機能

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限:

コード生成では、まず関数 segnetLayers を使用して SegNet ネットワークを作成しなければなりません。次に、結果の lgraph オブジェクトに関数 trainNetwork を使用し、セグメンテーションについてネットワークに学習させます。ネットワークの学習と評価が済んだら、GPU Coder™ を使用して DAGNetwork オブジェクトのコードを生成できます。

バージョン履歴

R2017b で導入

参考

オブジェクト

pixelClassificationLayer | layerGraph (Deep Learning Toolbox) | DAGNetwork (Deep Learning Toolbox)

関数

fcnLayers | unetLayers | trainNetwork (Deep Learning Toolbox) | semanticseg | deeplabv3plusLayers | evaluateSemanticSegmentation

トピック

深層学習を使用したセマンティックセグメンテーション入門
MATLAB による深層学習 (Deep Learning Toolbox)

segnetLayers

構文

説明

例

SegNet の学習

カスタムの符号化器と復号化器の深さを使用した SegNet の作成

入力引数

imageSize — ネットワーク入力のイメージ サイズ 2 要素ベクトル | 3 要素ベクトル

numClasses — クラス数 1 より大きい整数

model — 事前学習済みのネットワーク モデル 'vgg16' | 'vgg19'

encoderDepth — 符号化器の深さ 正の整数

名前と値の引数

NumConvolutionLayers — 畳み込み層のセクション数 2 (既定値) | 正の整数 | 正の整数のベクトル

NumOutputChannels — 出力チャネル数 64 (既定値) | 正の整数 | 正の整数のベクトル

FilterSize — 畳み込み層のフィルター サイズ 3 (既定値) | 正の奇数の整数 | 正の奇数の整数の 2 要素の行ベクトル

出力引数

lgraph — 層 LayerGraph オブジェクト

ヒント

参照

拡張機能

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

参考

オブジェクト

関数

トピック

`imageSize` — ネットワーク入力のイメージサイズ
2 要素ベクトル | 3 要素ベクトル

`numClasses` — クラス数
1 より大きい整数

`model` — 事前学習済みのネットワークモデル
`'vgg16'` | `'vgg19'`

`encoderDepth` — 符号化器の深さ
正の整数

`NumConvolutionLayers` — 畳み込み層のセクション数
`2` (既定値) | 正の整数 | 正の整数のベクトル

`NumOutputChannels` — 出力チャネル数
`64` (既定値) | 正の整数 | 正の整数のベクトル

`FilterSize` — 畳み込み層のフィルターサイズ
`3` (既定値) | 正の奇数の整数 | 正の奇数の整数の 2 要素の行ベクトル

`lgraph` — 層
`LayerGraph` オブジェクト

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。