augmentedImageDatastore

バッチの変換によるイメージデータの拡張

説明

拡張イメージデータストアは、サイズ変更、回転、反転などのオプションの前処理を使用して、学習データ、検証データ、テストデータ、および予測データのバッチを変換します。イメージのサイズを変更して、深層学習ネットワークの入力サイズに適合させます。ネットワークで過適合が発生したり、学習イメージの正確な詳細が記憶されたりすることを防止するには、ランダムな前処理演算を使用して学習イメージデータを拡張します。

拡張イメージを使用してネットワークに学習させるには、augmentedImageDatastore を trainnet 関数に指定します。詳細については、イメージの深層学習向け前処理を参照してください。

拡張イメージデータストアを学習イメージのソースとして使用する場合、データストアによって各エポックの学習データにランダムに摂動が与えられるため、エポックごとにわずかに異なるデータセットが使用されます。各エポックの学習イメージの実際の数は変化しません。変換後のイメージはメモリに格納されません。
imageInputLayer は、元のデータセットの平均ではなく拡張イメージの平均を使用してイメージの正規化を行います。この平均は、最初の拡張エポックで 1 回計算されます。他のすべてのエポックで同じ平均が使用されるため、学習中には平均イメージが変化しません。
イメージのサイズ変更を含む深層学習用のイメージの前処理を効率的に行うには、拡張イメージデータストアを使用します。ImageDatastore オブジェクトの ReadFcn オプションを使用しないでください。ImageDatastore を使用すると、事前取得を使用して JPG または PNG のイメージファイルのバッチ読み取りを行うことができます。ReadFcn オプションをカスタム関数に設定した場合、ImageDatastore は事前取得を行わないため、通常、速度が大幅に低下します。

既定では、augmentedImageDatastore はイメージのサイズを出力サイズに合わせて変更するだけです。imageDataAugmenter を使用して、追加のイメージ変換のオプションを設定できます。

作成

構文

auimds = augmentedImageDatastore(outputSize,imds)

auimds = augmentedImageDatastore(outputSize,X,Y)

auimds = augmentedImageDatastore(outputSize,X)

auimds = augmentedImageDatastore(outputSize,tbl)

auimds = augmentedImageDatastore(outputSize,tbl,responseNames)

auimds = augmentedImageDatastore(___,Name=Value)

説明

auimds = augmentedImageDatastore(outputSize,imds) は、イメージデータストア imds のイメージを使用して、分類問題用の拡張イメージデータストアを作成します。データストアは、outputSize で指定された高さと幅に合わせてイメージのサイズを変更します。

auimds = augmentedImageDatastore(outputSize,X,Y) は、分類および回帰問題用の拡張イメージデータストアを作成します。配列 X には予測子変数が含まれ、配列 Y にはカテゴリカルラベルまたは数値応答が含まれます。

auimds = augmentedImageDatastore(outputSize,X) は、配列 X のイメージデータの応答を予測するための拡張イメージデータストアを作成します。

auimds = augmentedImageDatastore(outputSize,tbl) は、分類および回帰問題用の拡張イメージデータストアを作成します。テーブル tbl には、予測子と応答が含まれます。

auimds = augmentedImageDatastore(outputSize,tbl,responseNames) は、分類および回帰問題用の拡張イメージデータストアを作成します。テーブル tbl には、予測子と応答が含まれます。引数 responseNames は、tbl の応答変数を指定します。

auimds = augmentedImageDatastore(___,Name=Value) は、名前と値の引数を使用して、書き込み可能なプロパティも設定します。たとえば、augmentedImageDatastore([28,28],imds,OutputSizeMode="centercrop") は中心からイメージをトリミングする拡張イメージデータストアを作成します。

例

入力引数

すべて展開する

`outputSize` — 出力イメージのサイズ
2 つの正の整数のベクトル

出力イメージのサイズ。2 つの正の整数のベクトルとして指定します。最初の要素は出力イメージの高さ (行数) を指定し、2 番目の要素は幅 (列数) を指定します。

出力イメージには、カラーチャネルを表す 3 番目の次元が含まれる場合があります。ただし、outputSize を 3 要素ベクトルとして指定した場合、データストアは 3 番目の要素を無視します。代わりに、データストアは次のいずれかの方法で 3 次元のイメージサイズを決定します。

1 つまたは 3 つのカラーチャネルをもつ入力グレースケールおよび RGB イメージの場合、出力カラーチャネルの数は ColorPreprocessing の値によって異なります。たとえば、outputSize を [28 28 1] に設定しても、ColorPreprocessing を "gray2rgb" に設定した場合、出力イメージのサイズは 28×28×3 になります。
マルチスペクトルイメージやハイパースペクトルイメージなど、入力イメージが 1 つまたは 3 つのカラーチャネルをもたない場合、出力イメージには入力イメージと同じ数のカラーチャネルが含まれます。

この引数は OutputSize プロパティを設定します。

`imds` — イメージデータストア
`ImageDatastore` オブジェクト

イメージデータストア。ImageDatastore オブジェクトとして指定します。

`X` — イメージ
4 次元数値配列

イメージ。4 次元数値配列として指定します。最初の 3 つの次元は高さ、幅、およびチャネルであり、最後の次元は個々のイメージにインデックスを付けます。

`Y` — 分類または回帰の応答
カテゴリカル応答の配列 | 数値行列 | 4 次元数値配列

分類または回帰の応答。次のいずれかに指定します。

分類問題で、Y がイメージラベルを含む categorical ベクトル。
回帰問題では、Y は次のいずれかになる。
- n 行 r 列の数値行列。n は観測値の数、r は応答の数です。
- h x w x c x n の数値配列。h x w x c は 1 つの応答のサイズ、n は観測値の数です。

応答に NaN が含まれていてはなりません。

データ型: categorical | double

`tbl` — 入力データ
`table`

入力データ。テーブルとして指定します。tbl は、最初の列に予測子を、絶対イメージパス、相対イメージパス、あるいはイメージとして含まなければなりません。応答の型と場所は、問題によって異なります。

分類問題では、応答はイメージのラベルを含むカテゴリカル変数でなければなりません。augmentedImageDatastore を呼び出すときに応答変数の名前が指定されていない場合、応答は 2 列目に含まれていなければなりません。tbl の異なる列に応答が含まれている場合、引数 responseNames を使用して応答変数名を指定しなければなりません。
回帰問題では、応答は数値であり、最初の列より後の列に含まれなければなりません。応答は、スカラーとして複数の列に、あるいは数値ベクトルまたは 3 次元数値配列が含まれる cell 配列として 1 つの列に含めることができます。応答変数の名前を指定しない場合、augmentedImageDatastore は tbl の残りの列を応答変数として受け入れます。引数 responseNames を使用して応答変数名を指定できます。

応答に NaN の値が含まれていてはなりません。予測子データに NaN が含まれる場合、学習全体に伝播されますが、ほとんどの場合に学習が収束しなくなります。

データ型: table

`responseNames` — 入力テーブルの応答変数の名前
文字ベクトル | 文字ベクトルの cell 配列 | string 配列

入力テーブルの応答変数の名前。次のいずれかとして指定します。

1 つの応答をもつ分類または回帰タスクの場合、responseNames は、入力テーブルに応答変数が格納された文字ベクトルまたは string スカラーでなければなりません。
複数の応答をもつ回帰タスクの場合、responseNames は、入力テーブルに応答変数が格納された string 配列または文字ベクトルの cell 配列でなければなりません。

データ型: char | cell | string

名前と値の引数

すべて展開する

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

例: auimds = augmentedImageDatastore([28,28],imds,OutputSizeMode="centercrop") は中心からイメージをトリミングする拡張イメージデータストアを作成します。

`ColorPreprocessing` — 色の前処理演算
`"none"` (既定値) | `"gray2rgb"` | `"rgb2gray"`

入力グレースケールまたは RGB イメージに対して実行される色の前処理演算。"none"、"gray2rgb"、または "rgb2gray" として指定します。イメージデータストアにグレースケールイメージと RGB イメージが混在している場合、ColorPreprocessing を使用して、必ずすべての出力イメージが imageInputLayer に必要な数のチャネルを持つようにします。

メモ

augmentedImageDatastore オブジェクトは、rgb2gray 関数を使用して RGB イメージをグレースケールに変換します。イメージに赤、緑、青のチャネルに対応しない 3 つのチャネルがある場合 (L*a*b* 色空間のイメージなど)、ColorPreprocessing を使用すると良い結果が得られないことがあります。

データストアは、次の場合には色の前処理を実行しません。

入力イメージに既に必要な数のカラーチャネルがある。たとえば、値 "gray2rgb" を指定しており、入力イメージに既に 3 つのチャネルがある場合、色の前処理は行われません。
マルチスペクトルイメージやハイパースペクトルイメージなど、入力イメージが 1 つまたは 3 つのチャネルを持たない。この場合、すべての入力イメージが同数のチャネルを持たなければなりません。

この引数は ColorPreprocessing プロパティを設定します。

データ型: char | string

`DataAugmentation` — 入力イメージに適用される前処理
`"none"` (既定値) | `imageDataAugmenter` オブジェクト

入力イメージに適用される前処理。imageDataAugmenter オブジェクトまたは "none" として指定します。DataAugmentation が "none" の場合、データストアは出力サイズに合わせてイメージのサイズを変更するだけで、追加の前処理は実行しません。

この引数は DataAugmentation プロパティを設定します。

`DispatchInBackground` — バックグラウンドの観測値の送信
`false` (既定値) | `true`

学習、予測、または分類中のバックグラウンドにおける観測値の送信。false または true として指定します。バックグラウンドディスパッチを使用するには、Parallel Computing Toolbox™ が必要です。

拡張イメージデータストアは、関数 trainnet、および predict や minibatchpredict などの推論関数と共に使用した場合、バックグラウンドディスパッチのみを実行します。データストアの関数 read を直接呼び出すと、バックグラウンドディスパッチが行われません。

この引数は DispatchInBackground プロパティを設定します。

`OutputSizeMode` — 出力イメージのサイズ変更に使用するメソッド
`"resize"` (既定値) | `"centercrop"` | `"randcrop"`

出力イメージのサイズ変更に使用するメソッド。次のいずれかに指定します。

"resize" — 双一次内挿を使用して、出力サイズに合わせてイメージをスケーリングします。
メモ
augmentedImageDatastore は、imresize の双一次内挿法をアンチエイリアシングと共に使用します。双一次内挿を使用すると、最近傍内挿などによって発生する歪みを回避しながら、イメージ処理を高速化できます。対照的に、imresize は既定で、双三次内挿をアンチエイリアシングと共に使用して、サイズ変更された高品質のイメージを生成しますが、処理時間は長くなります。
"centercrop" — 学習イメージの中心からトリミングします。トリミングのサイズは、出力サイズと同じです。
"randcrop" — 学習イメージからランダムにトリミングします。ランダムなトリミングのサイズは、出力サイズと同じです。

この引数は OutputSizeMode プロパティを設定します。

データ型: char | string

プロパティ

すべて展開する

`ColorPreprocessing` — 色の前処理演算
`"none"` (既定値) | `"gray2rgb"` | `"rgb2gray"`

入力グレースケールまたは RGB イメージに対して実行される色の前処理演算。"none"、"gray2rgb"、または "rgb2gray" として指定します。イメージデータストアにグレースケールイメージと RGB イメージが混在している場合、ColorPreprocessing を使用して、すべての出力イメージが imageInputLayer に必要な数のチャネルを持つようにします。

メモ

データストアは、次の場合には色の前処理を実行しません。

入力イメージに既に必要な数のカラーチャネルがある。たとえば、値 "gray2rgb" を指定しており、入力イメージに既に 3 つのチャネルがある場合、色の前処理は行われません。
マルチスペクトルイメージやハイパースペクトルイメージなど、入力イメージが 1 つまたは 3 つのチャネルを持たない。この場合、すべての入力イメージが同数のチャネルを持たなければなりません。

データ型: char | string

`DataAugmentation` — 入力イメージに適用される前処理
`"none"` (既定値) | `imageDataAugmenter` オブジェクト

`DispatchInBackground` — バックグラウンドの観測値の送信
`false` (既定値) | `true`

学習、予測、または分類中のバックグラウンドにおける観測値の送信。false または true として指定します。バックグラウンドディスパッチを使用するには、Parallel Computing Toolbox が必要です。

`MiniBatchSize` — 各バッチの観測値の数
`128` | 正の整数

各バッチで返される観測値の数。データストアの作成後にのみ MiniBatchSize の値を変更できます。

trainingOptions、minibatchpredict、および testnet など、ミニバッチサイズを指定する学習関数および予測関数では、MiniBatchSize プロパティは設定されません。最高のパフォーマンスを得るには、学習関数および予測関数と同じミニバッチサイズをデータストアに使用します。

`NumObservations` — データストアに含まれている観測値の合計数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

拡張イメージデータストアに含まれている観測値の合計数。正の整数として返されます。観測値の数は 1 つの学習エポックの長さです。

`OutputSize` — 出力イメージのサイズ
2 つの正の整数のベクトル

OutputSize プロパティは、出力イメージのカラーチャネルの数を示すものではありません。データストアから読み取る場合、出力イメージにはカラーチャネルを表す 3 番目の次元が含まれる場合があります。

1 つまたは 3 つのカラーチャネルをもつ入力グレースケールおよび RGB イメージの場合、出力チャネルの数は ColorPreprocessing の値によって異なります。たとえば、ColorPreprocessing が "gray2rgb" の場合、3 次元の出力サイズは 3 になります。ColorPreprocessing が "rgb2gray" の場合、出力イメージは 3 番目の次元をもちません。
マルチスペクトルイメージやハイパースペクトルイメージなど、入力イメージが 1 つまたは 3 つのカラーチャネルをもたない場合、3 次元の出力サイズは入力イメージのカラーチャネルの数と等しくなります。

`OutputSizeMode` — 出力イメージのサイズ変更に使用するメソッド
`"resize"` (既定値) | `"centercrop"` | `"randcrop"`

出力イメージのサイズ変更に使用するメソッド。次のいずれかに指定します。

"resize" — 双一次内挿を使用して、出力サイズに合わせてイメージをスケーリングします。
メモ
augmentedImageDatastore は、imresize の双一次内挿法をアンチエイリアシングと共に使用します。双一次内挿を使用すると、最近傍内挿などによって発生する歪みを回避しながら、イメージ処理を高速化できます。対照的に、imresize は既定で、双三次内挿をアンチエイリアシングと共に使用して、サイズ変更された高品質のイメージを生成しますが、処理時間は長くなります。
"centercrop" — 学習イメージの中心からトリミングします。トリミングのサイズは、出力サイズと同じです。
"randcrop" — 学習イメージからランダムにトリミングします。ランダムなトリミングのサイズは、出力サイズと同じです。

データ型: char | string

オブジェクト関数

`combine`	複数のデータストアのデータを統合
`hasdata`	データが読み取り可能かどうかを判別
`numpartitions`	データストアの区画数
`partition`	データストアを分割する
`partitionByIndex`	インデックスに応じた `augmentedImageDatastore` の分割
`preview`	データストア内のデータのサブセットをプレビュー
`read`	`augmentedImageDatastore` からデータを読み取る
`readall`	データストアのすべてのデータの読み取り
`readByIndex`	インデックスで指定されたデータを `augmentedImageDatastore` から読み取る
`reset`	データストアの初期状態へのリセット
`shuffle`	`augmentedImageDatastore` でデータをシャッフルする
`subset`	データストアまたは FileSet のサブセットの作成
`transform`	データストアの変換
`isPartitionable`	データストアが分割可能かどうかを判別
`isShuffleable`	データストアがシャッフル可能かどうかを判別

例

すべて折りたたむ

拡張イメージを使用したネットワークの学習

ライブスクリプトを開く

拡張イメージデータを使用して、畳み込みニューラルネットワークに学習させます。データ拡張は、ネットワークで過適合が発生したり、学習イメージの正確な詳細が記憶されたりすることを防止するのに役立ちます。

サンプルデータを読み込みます。サンプルデータは、手書き数字の合成イメージで構成されています。XTrain は 28×28×1×5000 の配列です。ここで、以下のようになります。

28 はイメージの高さと幅。
1 はチャネルの数。
5000 は手書き数字の合成イメージの数。

labelsTrain は、各観測値のラベルが含まれる categorical ベクトルです。

load DigitsDataTrain

ネットワークの検証用に 1000 個のイメージを残しておきます。

idx = randperm(size(XTrain,4),1000);
XValidation = XTrain(:,:,:,idx);
XTrain(:,:,:,idx) = [];
TValidation = labelsTrain(idx);
labelsTrain(idx) = [];

サイズ変更、回転、平行移動、反転など、イメージ拡張の前処理オプションを指定する imageDataAugmenter オブジェクトを作成します。イメージを、水平方向および垂直方向に最大 3 ピクセルまでのランダムな平行移動をさせたり、最大 20 度までの回転をさせたりします。

imageAugmenter = imageDataAugmenter( ...
    'RandRotation',[-20,20], ...
    'RandXTranslation',[-3 3], ...
    'RandYTranslation',[-3 3])

imageAugmenter = 
  imageDataAugmenter with properties:

           FillValue: 0
     RandXReflection: 0
     RandYReflection: 0
        RandRotation: [-20 20]
           RandScale: [1 1]
          RandXScale: [1 1]
          RandYScale: [1 1]
          RandXShear: [0 0]
          RandYShear: [0 0]
    RandXTranslation: [-3 3]
    RandYTranslation: [-3 3]

ネットワーク学習に使用する augmentedImageDatastore オブジェクトを作成し、イメージ出力サイズを指定します。学習中、データストアはイメージ拡張の実行とイメージのサイズ変更を行います。データストアは、イメージをメモリに保存せずに拡張します。trainnet は、ネットワークパラメーターを更新した後、その拡張イメージを破棄します。

imageSize = [28 28 1];
augimds = augmentedImageDatastore(imageSize,XTrain,labelsTrain,'DataAugmentation',imageAugmenter);

畳み込みニューラルネットワークアーキテクチャを指定します。

layers = [
    imageInputLayer(imageSize)
    
    convolution2dLayer(3,8,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    maxPooling2dLayer(2,'Stride',2)
    
    convolution2dLayer(3,16,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    maxPooling2dLayer(2,'Stride',2)
    
    convolution2dLayer(3,32,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    fullyConnectedLayer(10)
    softmaxLayer];

学習オプションを指定します。オプションの中から選択するには、経験的解析が必要です。実験を実行してさまざまな学習オプションの構成を調べるには、実験マネージャーアプリを使用できます。

opts = trainingOptions('sgdm', ...
    'MaxEpochs',15, ...
    'Shuffle','every-epoch', ...
    'Plots','training-progress', ...
    'Metrics','accuracy', ...
    'Verbose',false, ...
    'ValidationData',{XValidation,TValidation});

関数trainnetを使用してニューラルネットワークに学習させます。分類には、クロスエントロピー損失を使用します。既定では、関数 trainnet は利用可能な GPU がある場合にそれを使用します。GPU での学習には、Parallel Computing Toolbox™ ライセンスとサポートされている GPU デバイスが必要です。サポートされているデバイスの詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。そうでない場合、関数 trainnet は CPU を使用します。実行環境を指定するには、ExecutionEnvironment 学習オプションを使用します。

net = trainnet(augimds,layers,"crossentropy",opts);

ヒント

関数 imtile を使用して、変換された多くのイメージを同じ Figure で可視化できます。たとえば、次のコードは、auimds という拡張イメージデータストアから、変換されたイメージのミニバッチの 1 つを表示します。
```
minibatch = read(auimds);
imshow(imtile(minibatch.input))
```
既定では、イメージに対して実行されるイメージ前処理演算はサイズの変更のみです。imageDataAugmenter オブジェクトで名前と値の引数 DataAugmentation を使用して、追加の前処理演算を有効にします。拡張イメージデータストアからイメージが読み取られるたびに、前処理演算がランダムな異なる組み合わせで各イメージに適用されます。
ノイズの追加、フィルター処理、ランダム消去など、augmentedImageDatastore オブジェクトでサポートされていない拡張を使用するには、transform 関数を使用して、定義したカスタム変換関数を適用する TransformedDatastore を作成します。イメージにごま塩ノイズを追加する TransformedDatastore を作成する方法を示す例については、image-to-image 回帰用のデータストアの準備を参照してください。
trainnet 関数を使用して拡張イメージで多入力ネットワークに学習させるには、transform 関数を使用して TransformedDatastore を作成することでイメージを拡張し、その後 combine 関数を使用して TransformedDatastore を別のデータストアと結合します。データストアを変換し、その後結合する方法を示す例については、メモリ外のシーケンスデータを使用したネットワークの学習を参照してください。

バージョン履歴

R2018a で導入

参考

augmentedImageDatastore

説明

作成

構文

説明

入力引数

outputSize — 出力イメージのサイズ 2 つの正の整数のベクトル

imds — イメージ データストア ImageDatastore オブジェクト

X — イメージ 4 次元数値配列

Y — 分類または回帰の応答 カテゴリカル応答の配列 | 数値行列 | 4 次元数値配列

tbl — 入力データ table

responseNames — 入力テーブルの応答変数の名前 文字ベクトル | 文字ベクトルの cell 配列 | string 配列

名前と値の引数

ColorPreprocessing — 色の前処理演算 "none" (既定値) | "gray2rgb" | "rgb2gray"

DataAugmentation — 入力イメージに適用される前処理 "none" (既定値) | imageDataAugmenter オブジェクト

DispatchInBackground — バックグラウンドの観測値の送信 false (既定値) | true

OutputSizeMode — 出力イメージのサイズ変更に使用するメソッド "resize" (既定値) | "centercrop" | "randcrop"

プロパティ

ColorPreprocessing — 色の前処理演算 "none" (既定値) | "gray2rgb" | "rgb2gray"

DataAugmentation — 入力イメージに適用される前処理 "none" (既定値) | imageDataAugmenter オブジェクト

DispatchInBackground — バックグラウンドの観測値の送信 false (既定値) | true

MiniBatchSize — 各バッチの観測値の数 128 | 正の整数

NumObservations — データストアに含まれている観測値の合計数 読み取り専用: 正の整数

OutputSize — 出力イメージのサイズ 2 つの正の整数のベクトル

OutputSizeMode — 出力イメージのサイズ変更に使用するメソッド "resize" (既定値) | "centercrop" | "randcrop"

オブジェクト関数

例

拡張イメージを使用したネットワークの学習

ヒント

バージョン履歴

参考

トピック

`outputSize` — 出力イメージのサイズ
2 つの正の整数のベクトル

`imds` — イメージデータストア
`ImageDatastore` オブジェクト

`X` — イメージ
4 次元数値配列

`Y` — 分類または回帰の応答
カテゴリカル応答の配列 | 数値行列 | 4 次元数値配列

`tbl` — 入力データ
`table`

`responseNames` — 入力テーブルの応答変数の名前
文字ベクトル | 文字ベクトルの cell 配列 | string 配列

`ColorPreprocessing` — 色の前処理演算
`"none"` (既定値) | `"gray2rgb"` | `"rgb2gray"`

`DataAugmentation` — 入力イメージに適用される前処理
`"none"` (既定値) | `imageDataAugmenter` オブジェクト

`DispatchInBackground` — バックグラウンドの観測値の送信
`false` (既定値) | `true`

`OutputSizeMode` — 出力イメージのサイズ変更に使用するメソッド
`"resize"` (既定値) | `"centercrop"` | `"randcrop"`

`ColorPreprocessing` — 色の前処理演算
`"none"` (既定値) | `"gray2rgb"` | `"rgb2gray"`

`DataAugmentation` — 入力イメージに適用される前処理
`"none"` (既定値) | `imageDataAugmenter` オブジェクト

`DispatchInBackground` — バックグラウンドの観測値の送信
`false` (既定値) | `true`

`MiniBatchSize` — 各バッチの観測値の数
`128` | 正の整数

`NumObservations` — データストアに含まれている観測値の合計数
読み取り専用: 正の整数

`OutputSize` — 出力イメージのサイズ
2 つの正の整数のベクトル

`OutputSizeMode` — 出力イメージのサイズ変更に使用するメソッド
`"resize"` (既定値) | `"centercrop"` | `"randcrop"`