深層学習用のデータストア

深層学習データセットに対するアクセスや変更を行うには、データストアオブジェクトを使用できます。既にデータストアについて熟知しており、アプリケーションに適したデータストアを選択したい場合は、データストアの選択を参照してください。データストアを使用する深層学習タスクを高速化する方法の詳細については、Optimize Datastores for Deep Learning Performanceを参照してください。

データストアとは

データストアは、単一のファイルまたはファイルやデータの集合を読み取るためのオブジェクトです。データストアのプロパティは、データを記述し、データストアからデータを読み取る方法を指定します。

データストアを使用して深層学習データセットを操作する利点は、次のとおりです。

メモリ使用量の削減 — データストアを作成しても、データはメモリに読み込まれません。ソフトウェアは必要なときにのみデータをメモリに読み込むため、メモリ不足に陥ることなく、より大きなデータセットを使用できます。
便利なバッチ処理 — データストアを使用すると、データをミニバッチで簡単に反復処理できます。
記述するコード量の削減 — データセットの読み込み、変換、分割、および結合を行うコードを記述する代わりに、組み込みのデータストアの便利な関数を使用できます。

非常に小さなデータセットで作業する場合は、データを MATLAB^® に直接読み込むのが適切かもしれませんが、大規模なデータセットや、複数の入力または出力をもつネットワークなどのより複雑なネットワークの場合は、データストアを使用します。

Animation showing a datastore reading mini-batches of data from disk and passing the data to a network.

データストアの作成と読み取りの方法

深層学習に使用するデータを選択します。次のコードは、50 種類のアルファベットの手書き文字を示すイメージを含む Omniglot 学習データセット[1]をダウンロードします。

downloadFolder = tempdir;
url = "https://github.com/brendenlake/omniglot/raw/master/python/images_background.zip";
filename = fullfile(downloadFolder,"images.zip");
dataFolder = fullfile(downloadFolder,"images_background");

if ~exist(dataFolder,"dir")
    fprintf("Downloading Omniglot training data set (4.5 MB)... ")
    websave(filename,url)
    unzip(filename,downloadFolder)
    fprintf("Done.\n")
end

dataFolder 内のすべてのファイルとサブフォルダーを含む imageDatastore オブジェクトを作成します。別の種類のデータがある場合は、別の組み込みデータストアを選択してください。詳細については、データストアの選択を参照してください。

imds = imageDatastore(dataFolder,IncludeSubfolders=true);

データストアがイメージにアクセスできることを確認するには、read 関数を使用してデータストアからイメージを読み取り、表示します。

I = read(imds);
imshow(I)

An example handwritten character from the data set.

read の後続の呼び出しでは、直前の呼び出しのエンドポイントから引き続き読み取ります。データが読み取られていない状態にデータストアをリセットするには、reset 関数を使用します。

reset(imds)

学習、検証、推論のためのデータストアの使用

データストアは、学習、検証、推論のための有効な入力です。

学習と検証

trainnet 関数を使用して学習させる場合、データストアを学習データのソースとして使用できます。検証にデータストアを使用するには、trainingOptions 関数を使用して ValidationData の名前と値の引数を指定します。

データストアが学習または検証のための有効な入力となるためには、データストアの read 関数が cell 配列または table のいずれかとしてデータを返さなければなりません (数値配列を出力できる ImageDatastore オブジェクトと、table を出力する必要があるカスタムミニバッチデータストアは例外)。

単一の入力があるネットワークの場合、データストアによって返される table または cell 配列に 2 つの列がなければなりません。最初の列のデータはネットワークへの入力 (予測子) を表し、2 番目の列のデータは学習ターゲットを表します。データの各列は個別の観測を表します。ImageDatastore の場合のみ、trainnet および trainingOptions は整数配列および整数配列の 1 列の cell 配列として返されるデータをサポートします。

data = read(ds)

data =

  4×2 cell array

    {224×224×3 double}    {[2]}
    {224×224×3 double}    {[7]}
    {224×224×3 double}    {[9]}
    {224×224×3 double}    {[9]}

ほとんどの組み込みのデータストアは、ネットワークで必要とされるレイアウトでデータを出力します。trainnet 関数を使用してネットワークに学習させる際、データのレイアウトがネットワークで必要とされるレイアウトと異なる場合、trainingOptions 関数の InputDataFormats および TargetDataFormats 引数を使用して、データのレイアウトが異なることを示します。通常、これらのオプションを調整することは、入力データとターゲットデータを前処理するよりも簡単です。

たとえば、行と列がそれぞれチャネルとタイムステップに対応するシーケンスデータがある場合、入力データ形式を "CTB" (チャネル、時間、バッチ) として指定します。

trainingOptions("adam", ...
InputDataFormats="CTB");

trainnet 関数に必要なデータレイアウトの詳細については、データストアのカスタマイズを参照してください。

予測

minibatchpredict 関数を使用した推論の場合、データストアの read 関数が予測子に対応する列を返す限り、データストアは有効です。minibatchpredict 関数は最初の numInputs 個の列を使用し、後続の列を無視します。ここで、numInputs はネットワーク入力層の数です。

データストアの変換

変換されたデータストアは、データを読み取るときに、特定のデータ変換を基となるデータストアに適用します。変換されたデータストアを作成するには、transform 関数を使用して、基となるデータストアおよび変換処理について指定します。

1 行のコードで表現できる単純な変換の場合、無名関数のハンドルを transform の @fcn 引数として指定できます。詳細については、無名関数を参照してください。たとえば、transform 関数を使用して、変換されたデータストアを作成できます。このデータストアは、データストアからイメージを読み取るときに imresize 関数を適用してイメージのサイズを変更します。

imageSize = [244 244];
tds = transform(imds,@(I) imresize(I,imageSize))

複数の前処理演算を伴うより複雑な変換の場合、独自の関数に変換の完全なセットを定義します。次に、関数のハンドルを transform の引数 @fcn として指定します。transform 関数を使用してカスタム前処理関数を適用する方法を示す例については、image-to-image 回帰用のデータストアの準備を参照してください。

transform に指定された関数ハンドルは、基になるデータストアの関数 read によって返される形式と同じ形式の入力データを受け入れなければなりません。

データストアの統合

combine 関数は、複数のデータストアを相互に関連付けます。結合されたデータストアの関数 read を呼び出すと、基になる N 個の基になるデータストアすべてからデータのバッチ 1 つが読み取られます。返される観測値の数は同じでなければなりません。結合されたデータストアから読み取りを行うと、学習と検証に適した N 列の cell 配列で、結果が水平方向に連結されて返されます。

たとえば、image-to-image 回帰ネットワークに学習させる場合、2 つのイメージデータストアを組み合わせることによって学習データセットを作成できます。次のサンプルコードは、imdsX および imdsY という名前の 2 つのイメージデータストアの組み合わせを示します。組み合わせが行われたデータストア imdsTrain はデータを 2 列の cell 配列として返します。

imdsTrain = combine(imdsX,imdsY);
images = read(imdsTrain)

images =

  1×2 cell array

    {105×105 logical}    {105×105 logical}

combine 関数を使用してデータストアを結合する方法の例については、メモリ外のシーケンスデータを使用したネットワークの学習を参照してください。

データストアを使用した複数の入出力をもつネットワークの学習

複数の入力層または複数の出力をもつネットワークに学習させるには、combine 関数と transform 関数を使用して、(numInputs + numOutputs) 列の cell 配列を出力するデータストアを作成します。ここで、numInputs はネットワーク入力の数、numOutputs はネットワーク出力の数です。最初の numInputs 個の列は各入力の予測子を指定し、最後の numOutputs 個の列は応答を指定します。ニューラルネットワークの InputNames プロパティと OutputNames プロパティによって、それぞれ入力と出力の順序が決まります。

以下の表に、データストア ds に対して read 関数を呼び出した場合の出力の例を示します。

ニューラルネットワークアーキテクチャデータストア出力 cell 配列出力の例 table 出力の例

1 つの入力層と 1 つの出力

ニューラルネットワークアーキテクチャ	データストア出力	cell 配列出力の例	table 出力の例
1 つの入力層と 1 つの出力	2 列の table または cell 配列。最初の列と 2 番目の列は、それぞれ予測子とターゲットを指定します。 table の要素は、スカラー、行ベクトルであるか、数値配列が格納された 1 行 1 列の cell 配列でなければなりません。カスタムミニバッチデータストアは、table を出力しなければなりません。	1 つの入力と 1 つの出力があるニューラルネットワークの cell 配列: data = read(ds) data = 4×2 cell array {224×224×3 double} {[2]} {224×224×3 double} {[7]} {224×224×3 double} {[9]} {224×224×3 double} {[9]}	1 つの入力と 1 つの出力があるニューラルネットワークの table: data = read(ds) data = 4×2 table Predictors Response __________________ ________ {224×224×3 double} 2 {224×224×3 double} 7 {224×224×3 double} 9 {224×224×3 double} 9
複数の入力層と複数の出力	(`numInputs` + `numOutputs`) 列の cell 配列。ここで、`numInputs` はニューラルネットワーク入力の数、`numOutputs` はニューラルネットワーク出力の数です。最初の `numInputs` 個の列は各入力の予測子を指定し、最後の `numOutputs` 個の列はターゲットを指定します。入力と出力の順序は、ニューラルネットワークの `InputNames` プロパティと `OutputNames` プロパティによってそれぞれ指定されます。	2 つの入力と 2 つの出力があるニューラルネットワークの cell 配列。 data = read(ds) data = 4×4 cell array {224×224×3 double} {128×128×3 double} {[2]} {[-42]} {224×224×3 double} {128×128×3 double} {[2]} {[-15]} {224×224×3 double} {128×128×3 double} {[9]} {[-24]} {224×224×3 double} {128×128×3 double} {[9]} {[-44]}	サポートなし

2 列の table または cell 配列。

最初の列と 2 番目の列は、それぞれ予測子とターゲットを指定します。

table の要素は、スカラー、行ベクトルであるか、数値配列が格納された 1 行 1 列の cell 配列でなければなりません。

カスタムミニバッチデータストアは、table を出力しなければなりません。

1 つの入力と 1 つの出力があるニューラルネットワークの cell 配列:

data = read(ds)

data =

  4×2 cell array

    {224×224×3 double}    {[2]}
    {224×224×3 double}    {[7]}
    {224×224×3 double}    {[9]}
    {224×224×3 double}    {[9]}

1 つの入力と 1 つの出力があるニューラルネットワークの table:

data = read(ds)

data =

  4×2 table

        Predictors        Response
    __________________    ________

    {224×224×3 double}       2    
    {224×224×3 double}       7    
    {224×224×3 double}       9    
    {224×224×3 double}       9

複数の入力層と複数の出力

(numInputs + numOutputs) 列の cell 配列。ここで、numInputs はニューラルネットワーク入力の数、numOutputs はニューラルネットワーク出力の数です。

最初の numInputs 個の列は各入力の予測子を指定し、最後の numOutputs 個の列はターゲットを指定します。

入力と出力の順序は、ニューラルネットワークの InputNames プロパティと OutputNames プロパティによってそれぞれ指定されます。

2 つの入力と 2 つの出力があるニューラルネットワークの cell 配列。

data = read(ds)

data =

  4×4 cell array

    {224×224×3 double}    {128×128×3 double}    {[2]}    {[-42]}
    {224×224×3 double}    {128×128×3 double}    {[2]}    {[-15]}
    {224×224×3 double}    {128×128×3 double}    {[9]}    {[-24]}
    {224×224×3 double}    {128×128×3 double}    {[9]}    {[-44]}

サポートなし

結合されたデータストアを使用して複数の入力をもつネットワークに学習させる方法を示す例については、イメージデータおよび特徴データにおけるネットワークの学習を参照してください。複数の入力と出力をもつネットワークの詳細については、多入力および多出力ネットワークを参照してください。

データストアの選択

多くの用途では、組み込みデータストアで開始するのが最も簡単な方法です。使用可能な組み込みデータストアの詳細は、ファイル形式またはアプリケーション用のデータストアの選択を参照してください。ただし、ネットワークの学習、検証、および推論の直接入力として使用できるのは、一部の種類の組み込みデータストアのみです。

データストア	説明	例
`ImageDatastore`	イメージデータ用のデータストア	分類用のシンプルな深層学習ニューラルネットワークの作成ディープネットワークデザイナーを使用した Image-to-Image 回帰ネットワークの構築イメージデータおよび特徴データにおけるネットワークの学習
`augmentedImageDatastore`	学習イメージのサイズ変更および拡張を行うためのデータストアデータストアは非確定的	イメージ分類用の残差ネットワークの学習拡散を使用したイメージの生成深層学習を使用した複数ラベルイメージ分類
`PixelLabelDatastore` (Computer Vision Toolbox)	ピクセルラベルデータのデータストア	膨張畳み込みを使用したセマンティックセグメンテーション PointSeg 深層学習ネットワークを使用した LIDAR 点群のセマンティックセグメンテーション深層学習を使用した脳腫瘍の 3 次元セグメンテーション (Image Processing Toolbox)
`boxLabelDatastore` (Computer Vision Toolbox)	境界ボックスラベルデータ用のデータストア	YOLO v4 深層学習を使用したオブジェクトの検出 Detect Defects on Printed Circuit Boards Using YOLOX Network (Computer Vision Toolbox) Perform 6-DoF Pose Estimation for Bin Picking Using Deep Learning
`randomPatchExtractionDatastore` (Image Processing Toolbox)	イメージベースのデータからランダムパッチを抽出するためのデータストアデータストアは非確定的	深層学習を使用したイメージの高解像度化 (Image Processing Toolbox) 深層学習を使用した JPEG イメージのデブロック (Image Processing Toolbox) 深層学習を使用したイメージ処理演算子の近似 (Image Processing Toolbox)
`blockedImageDatastore` (Image Processing Toolbox)	メモリに収まらない大きなイメージを含む、イメージデータのブロック単位の読み取りと処理のためのデータストア	Preprocess Multiresolution Images for Training Classification Network (Image Processing Toolbox) 深層学習を使用したマルチスペクトルイメージのセマンティックセグメンテーション (Image Processing Toolbox)
`blockedPointCloudDatastore` (Lidar Toolbox)	メモリに収まらない大きな点群を含む、点群データのブロック単位の読み取りと処理のためのデータストア	Aerial Lidar Semantic Segmentation Using PointNet++ Deep Learning
`denoisingImageDatastore` (Image Processing Toolbox)	イメージノイズ除去の深層ニューラルネットワークに学習させるためのデータストアデータストアは非確定的	ノイズ除去ニューラルネットワークの学習と適用 (Image Processing Toolbox)
`audioDatastore` (Audio Toolbox)	オーディオデータ用のデータストア	Train Spoken Digit Recognition Network Using Out-of-Memory Audio Data Train Spoken Digit Recognition Network Using Out-of-Memory Features Dereverberate Speech Using Deep Learning Networks
`signalDatastore` (Signal Processing Toolbox)	信号データ用のデータストア	EMG 信号と深層学習を使用した腕の運動の分類 (Signal Processing Toolbox) Signal Source Separation Using W-Net Architecture (Signal Processing Toolbox) Manage Data Sets for Machine Learning and Deep Learning Workflows (Signal Processing Toolbox)

他の組み込みデータストアを深層学習の入力として使用することもできますが、それらのデータストアから読み取ったデータを深層学習ネットワークに必要な形式に前処理しなければなりません。組み込みのデータストアと transform 関数および combine 関数を使用すると、深層学習の学習と予測タスクの大部分にデータストアを使用できます。読み取りデータに必要な形式の詳細については、データストアのカスタマイズを参照してください。また、データストアから読み取ったデータを前処理する方法の詳細については、データストアの変換およびデータストアの統合を参照してください。

用途によっては、データに当てはまる組み込みデータストアタイプが存在しないことがあります。このような場合は、カスタムデータストアを作成できます。詳細については、カスタムデータストアの開発を参照してください。カスタムデータストアの関数 read が必要な形式でデータを返す限り、すべてのカスタムデータストアが深層学習インターフェイスに対する入力として有効です。

量子化では多くの組み込みデータストアをサポートしています。詳細については、Prepare Data for Quantizing Networksを参照してください。

参照

[1] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. “Human-Level Concept Learning through Probabilistic Program Induction.” Science 350, no. 6266 (December 11, 2015): 1332–38. https://doi.org/10.1126/science.aab3050.

参考