領域固有の深層学習用途のためのデータの前処理

データの前処理は、学習、検証、および推論に使用されます。前処理は、目的のデータの特徴を正規化または強調する一連の確定的な演算で構成されます。たとえば、固定された範囲にデータを正規化したり、ネットワーク入力層に必要なサイズにデータを再スケーリングできます。

深層学習のワークフローでは、前処理は 2 つの段階で発生することがあります。

通常、前処理は、ネットワークに渡されるデータを準備する前に完了する個別の手順として発生します。元のデータを読み込み、前処理演算を適用して、結果をディスクに保存します。この方法の利点は、前処理のオーバーヘッドが必要になるのは 1 回のみで、その後ネットワークの学習を試行する際には前処理されたイメージが開始点として既に用意されていることです。
データをデータストアに読み込むと、関数 transform および関数 combine を使用して、学習中に前処理を適用することもできます。詳細については、深層学習用のデータストアを参照してください。変換後のイメージはメモリに格納されません。この方法は、前処理演算に大量の計算が必要ではなく、ネットワークの学習速度に顕著な影響を与えない場合に、学習データの 2 つ目のコピーをディスクに書き込むことを回避するのに便利です。

データ拡張は、ネットワークの学習中に学習データに適用されるランダム化された演算で構成されます。拡張を行うと、学習データの実質的な量が増加し、ネットワークをデータの一般的な歪みに対して不変にするのに役立ちます。たとえば、学習データに人工的なノイズを追加してネットワークをノイズに対して不変にすることができます。

学習データを拡張するには、まずデータをデータストアに読み込みます。詳細については、深層学習用のデータストアを参照してください。いくつかの組み込みデータストアは、特定の用途の場合に特定の限られた拡張をデータに適用します。関数 transform および関数 combine を使用して、データストア内のデータに対して独自の拡張演算を適用することもできます。学習中、データストアによって各エポックの学習データにランダムに摂動が与えられるため、エポックごとにわずかに異なるデータセットが使用されます。

イメージ処理の使用例

イメージデータを拡張し、イメージの取得時のばらつきをシミュレーションします。たとえば、最も一般的なタイプのイメージ拡張演算は、シーンに対するカメラの向きのばらつきをシミュレーションする、回転や平行移動などの幾何学的変換です。色のジッターは、シーンでのライティング条件と色のばらつきをシミュレーションします。人工的なノイズは、センサーの電気変動およびアナログからデジタルへの変換の誤差によって生じる歪みをシミュレーションします。ブレは、フォーカスの合っていないレンズまたはシーンに対するカメラの動きをシミュレーションします。

一般的なイメージ前処理演算には、ノイズ除去、エッジ保存平滑化、色空間変換、コントラスト強調、モルフォロジーなどがあります。

Image Processing Toolbox™ がある場合、これらの演算とツールボックスのその他の機能を使用して、データを処理できます。これらの変換を作成および適用する方法を説明する例については、深層学習ワークフローのためのイメージの拡張 (Image Processing Toolbox)を参照してください。

前処理のタイプ	説明	関数のサンプル
イメージのサイズ変更	固定の倍率、または目標のサイズにイメージのサイズを変更する	`imresize`, `imresize3` (Image Processing Toolbox)
イメージのワープ	ランダムな反転、回転、スケール、せん断、および平行移動をイメージに適用する	`randomAffine2d` (Image Processing Toolbox), `randomAffine3d` (Image Processing Toolbox)
イメージのトリミング	中心またはランダムな位置からイメージを目標のサイズにトリミングする	`centerCropWindow2d` (Image Processing Toolbox), `centerCropWindow3d` (Image Processing Toolbox) `randomWindow2d` (Image Processing Toolbox), `randomCropWindow3d` (Image Processing Toolbox)
色のジッター	イメージの色相、彩度、明度、またはコントラストをランダムに調整する	`jitterColorHSV` (Image Processing Toolbox)
ノイズのシミュレーション	ランダムなガウスノイズ、ポアソンノイズ、ごま塩ノイズ、または乗法性ノイズを追加する	`imnoise` (Image Processing Toolbox)
ブレのシミュレーション	ガウスノイズまたは指向性運動によるブレを追加する	`imgaussfilt` (Image Processing Toolbox), `imgaussfilt3` (Image Processing Toolbox) `imfilter` (Image Processing Toolbox)

オブジェクトの検出

オブジェクト検出データは、イメージ、およびイメージ内のオブジェクトの位置と特性を示す境界ボックスで構成されます。

Computer Vision Toolbox™ がある場合、イメージラベラー (Computer Vision Toolbox) アプリとビデオラベラー (Computer Vision Toolbox) アプリを使用して、ROI に対話形式でラベルを付け、ニューラルネットワークに学習させるためのラベルデータをエクスポートできます。Automated Driving Toolbox™ がある場合、グラウンドトゥルースラベラー (Automated Driving Toolbox) アプリを使用してラベル付きグラウンドトゥルース学習データを作成することもできます。

イメージを変換する場合、対応する境界ボックスに対して同一の変換を実行しなければなりません。Computer Vision Toolbox がある場合、表に示す演算を使用して境界ボックスを処理できます。これらの変換を作成および適用する方法を説明する例については、オブジェクト検出のための境界ボックスの拡張 (Computer Vision Toolbox)を参照してください。詳細については、深層学習を使用したオブジェクト検出入門 (Computer Vision Toolbox)を参照してください。

前処理のタイプ	説明	関数のサンプル
境界ボックスのサイズ変更	固定の倍率、または目標のサイズに境界ボックスのサイズを変更する	`bboxresize` (Computer Vision Toolbox)
境界ボックスのトリミング	中心またはランダムな位置から境界ボックスを目標のサイズにトリミングする	`bboxcrop` (Computer Vision Toolbox)
境界ボックスのワープ	反転、回転、スケール、せん断、および平行移動を境界ボックスに適用する	`bboxwarp` (Computer Vision Toolbox)

セマンティックセグメンテーション

セマンティックセグメンテーションデータは、イメージ、および categorical 配列として表される対応するピクセルラベルで構成されます。

Computer Vision Toolbox がある場合、イメージラベラー (Computer Vision Toolbox) アプリとビデオラベラー (Computer Vision Toolbox) アプリを使用して、ピクセルに対話形式でラベルを付け、ニューラルネットワークに学習させるためのラベルデータをエクスポートできます。Automated Driving Toolbox がある場合、グラウンドトゥルースラベラー (Automated Driving Toolbox) アプリを使用してラベル付きグラウンドトゥルース学習データを作成することもできます。

イメージを変換する場合、対応するピクセルラベル付きイメージに対して同一の変換を実行しなければなりません。Image Processing Toolbox がある場合、表に示す関数、およびカテゴリカル入力をサポートするその他のツールボックス関数を使用して、ピクセルラベルイメージを処理できます。これらの変換を作成および適用する方法を説明する例については、セマンティックセグメンテーションのためのピクセルラベルの拡張 (Computer Vision Toolbox)を参照してください。詳細については、深層学習を使用したセマンティックセグメンテーション入門 (Computer Vision Toolbox)を参照してください。

前処理のタイプ	説明	関数のサンプル
ピクセルのラベルのサイズ変更	固定の倍率、または目標のサイズにピクセルラベルイメージのサイズを変更する	`imresize`
ピクセルラベルのトリミング	中心またはランダムな位置からピクセルラベルイメージを目標のサイズにトリミングする	`imcrop` (Image Processing Toolbox) `centerCropWindow2d` (Image Processing Toolbox), `centerCropWindow3d` (Image Processing Toolbox) `randomWindow2d` (Image Processing Toolbox), `randomCropWindow3d` (Image Processing Toolbox)
ピクセルラベルのワープ	ランダムな反転、回転、スケール、せん断、および平行移動をピクセルラベルイメージに適用する	`randomAffine2d` (Image Processing Toolbox), `randomAffine3d` (Image Processing Toolbox)

LiDAR 処理アプリケーション

Lidar Toolbox™ を使用すると、LiDAR システムの設計、解析、テストを行うことができます。オブジェクトの検出と追跡、セマンティックセグメンテーション、形状フィッティング、レジストレーションを実行できます。LiDAR センサーから得られた生の点群データをこれらの高度なワークフローで使用するには、それらの点群データに対して基本的な処理を行う必要があります。

Lidar Toolbox では、点群データのダウンサンプリング、フィルター処理、位置調整、特徴量抽出といった前処理を実行するためのツールが用意されています。また、点群の拡張や変換を行って、学習データの多様性を高めることもできます。

点群データを可視化、解析、および測定するには、点群アナライザー (Lidar Toolbox) アプリを使用します。組み込みの前処理アルゴリズムを使用してデータを前処理することや、カスタムアルゴリズムをインポートすることができます。詳細については、Create Custom Preprocessing Algorithm with Point Cloud Analyzer (Lidar Toolbox)を参照してください。

LiDAR ラベラー (Lidar Toolbox)アプリを使用して、ラベル付きグラウンドトゥルース学習データを作成できます。自動ラベリングの詳細については、Automate Ground Truth Labeling for Vehicle Detection Using PointPillars (Lidar Toolbox)を参照してください。

前処理のタイプ	説明	関数のサンプル	出力のサンプル
点群データのクリーニングとフィルター処理	ダウンサンプリングアルゴリズムを使用した点群データのダウンサンプリングメディアンフィルターの適用ノイズの除去	`pcdownsample` (Computer Vision Toolbox) `pcmedian` (Lidar Toolbox) `pcdenoise` (Computer Vision Toolbox)
点群の整理	点群をオーガナイズド形式に変換します。この変換では、点どうしの空間的な関係に基づいて、データを行と列に配置します。	`pcorganize` (Lidar Toolbox)	size(ptCloudUnorg.Location) ans = 1×2 37879 3 ptCloudOrg = pcorganize(ptCloudUnorg,params); size(ptCloudOrg.Location) ans = 1×3 64 1024 3
ブロック化された点群の作成	データが大きすぎてメモリに収まらない場合、点群を個別のブロックに分割して処理します。	`blockedPointCloud` (Lidar Toolbox) `blockedPointCloudDatastore` (Lidar Toolbox)
点群データの拡張	ランダムな回転、平行移動、せん断、拡大縮小などの幾何学的変換の適用学習データへの境界ボックスのランダムな追加	`pctransform` (Computer Vision Toolbox), `transform` `sampleLidarData` (Lidar Toolbox), `pcBboxOversample` (Lidar Toolbox)

信号処理の使用例

Signal Processing Toolbox™ では、信号のノイズ除去、平滑化、トレンド除去、およびリサンプリングを行うことができます。ノイズ、マルチパスフェージング、およびパルスやチャープなどの合成信号で学習データを拡張できます。信号ラベラー (Signal Processing Toolbox) アプリと labeledSignalSet (Signal Processing Toolbox) オブジェクトを使用して、ラベル付き信号セットを作成することもできます。これらの変換を作成および適用する方法を説明する例については、深層学習を使用した波形セグメンテーションを参照してください。

Wavelet Toolbox™ と Signal Processing Toolbox を使用すると、信号分類用途でイメージ入力として使用できる時系列データの 2 次元時間-周波数表現を生成できます。例については、ウェーブレット解析と深層学習を使用した時系列の分類を参照してください。同様に、信号データからシーケンスを抽出して LSTM ネットワークの入力として使用できます。例については、長短期記憶ネットワークを使用した ECG 信号の分類 (Signal Processing Toolbox)を参照してください。

Communications Toolbox™ には拡張された信号処理機能があり、通信システムの誤り訂正、インターリーブ、変調、フィルター処理、同期、およびイコライズを実行できます。これらの変換を作成および適用する方法を説明する例については、深層学習による変調の分類 (Communications Toolbox)を参照してください。

表に示す関数、および各ツールボックスのその他の機能を使用して、信号データを処理できます。

前処理のタイプ	説明	関数のサンプル
信号のクリーンアップ	信号にメディアンフィルターまたは移動平均を適用する多項式トレンドの削除信号を新しい固定レートにリサンプリングする	`medfilt1` (Signal Processing Toolbox), `smoothdata` `detrend` `downsample` (Signal Processing Toolbox), `interp` (Signal Processing Toolbox), `upsample` (Signal Processing Toolbox)
信号のフィルター処理	IIR および FIR 信号のローパス、ハイパス、およびバンドストップフィルター処理を実行する IIR および FIR フィルターを設計する IIR および FIR フィルターを適用する	`bandpass` (Signal Processing Toolbox), `bandstop` (Signal Processing Toolbox), `highpass` (Signal Processing Toolbox), `lowpass` (Signal Processing Toolbox) `butter` (Signal Processing Toolbox), `designfilt` (Signal Processing Toolbox), `fir1` (Signal Processing Toolbox), `gaussdesign` (Signal Processing Toolbox), `rcosdesign` (Signal Processing Toolbox) `filter`
信号の拡張	Communications Toolbox を使用して信号にホワイトガウスノイズを追加する信号の時間情報を調整し、Communications Toolbox を使用してマルチパスフェージングを実行する合成チャープと合成波形を追加する	`awgn` (Communications Toolbox) `chirp` (Signal Processing Toolbox), `square` (Signal Processing Toolbox), `rectpuls` (Signal Processing Toolbox), `sawtooth` (Signal Processing Toolbox)
時間-周波数表現の作成	スペクトログラム、スカログラム、および 1 次元信号のその他の 2 次元表現を作成する	`pspectrum` (Signal Processing Toolbox), `xspectrogram` (Signal Processing Toolbox) `fsst` (Signal Processing Toolbox), `ifsst` (Signal Processing Toolbox) `stft` (Signal Processing Toolbox), `istft` (Signal Processing Toolbox) `cwt` (Wavelet Toolbox)
信号からの特徴の抽出	信号から時間領域、周波数領域、時間周波数特徴を抽出する	`signalTimeFeatureExtractor` (Signal Processing Toolbox) `signalFrequencyFeatureExtractor` (Signal Processing Toolbox) `signalTimeFrequencyFeatureExtractor` (Signal Processing Toolbox)

オーディオ処理の使用例

Audio Toolbox™ には、オーディオ処理、音声分析、および音響測定を行うためのツールが用意されています。これらのツールを使用して聴覚的な特徴を抽出し、オーディオ信号を変換します。ランダム化された、または確定的な時間スケーリング、時間ストレッチ、およびピッチシフトでオーディオデータを拡張します。信号ラベラー (Signal Processing Toolbox) アプリを使用してラベル付きグラウンドトゥルース学習データを作成することもできます。次の表に示す関数、およびツールボックスのその他の機能を使用して、オーディオデータを処理できます。これらの変換を作成および適用する方法を説明する例については、Augment Audio Dataset (Audio Toolbox)を参照してください。

Audio Toolbox には、事前学習済みのオーディオ深層学習ネットワーク向けの MATLAB^® および Simulink^® のサポートも用意されています。YAMNet を使用して音の特定と分類を行い、CREPE を使用してピッチを推定します。VGGish と OpenL3 の特徴埋め込みを抽出して、機械学習や深層学習のシステムに入力します。事前学習済みの Audio Toolbox ネットワークはディープネットワークデザイナーで利用できます。YAMNet の例については、Adapt Pretrained Audio Network for New Data Using Deep Network Designerを参照してください。

前処理のタイプ説明関数のサンプル出力のサンプル

オーディオデータの拡張

ランダムまたは確定的なピッチシフト、時間-スケール変更、時間シフト、ノイズの追加、ボリュームコントロールを実行する

前処理のタイプ	説明	関数のサンプル	出力のサンプル
オーディオデータの拡張	ランダムまたは確定的なピッチシフト、時間-スケール変更、時間シフト、ノイズの追加、ボリュームコントロールを実行する	`audioDataAugmenter` (Audio Toolbox), `audioTimeScaler` (Audio Toolbox), `shiftPitch` (Audio Toolbox), `stretchAudio` (Audio Toolbox)
オーディオの特徴の抽出	オーディオセグメントからスペクトルパラメーターを抽出する	`audioFeatureExtractor` (Audio Toolbox), `mfcc` (Audio Toolbox)	処理された出力: ans = struct with fields: mfcc: [1 2 3 4 5 6 7 8 9 10 11 12 13] mfccDelta: [14 15 16 17 18 19 20 21 22 23 24 25 26] mfccDeltaDelta: [27 28 29 30 31 32 33 34 35 36 37 38 39] spectralCentroid: 40 pitch: 41
時間-周波数表現の作成	メルスペクトログラム、およびオーディオ信号のその他の 2 次元表現を作成する事前学習済みの深層学習ネットワークに供給するためのオーディオ信号を準備する	`melSpectrogram` (Audio Toolbox), `mdct` (Audio Toolbox) `crepePreprocess` (Audio Toolbox), `openl3Preprocess` (Audio Toolbox), `vggishPreprocess` (Audio Toolbox), `yamnetPreprocess` (Audio Toolbox)

audioDataAugmenter (Audio Toolbox), audioTimeScaler (Audio Toolbox), shiftPitch (Audio Toolbox), stretchAudio (Audio Toolbox)

From left to right, the figure shows the original audio, the audio with time stretch applied, the audio with gain applied, and the audio with time shift applied.

オーディオの特徴の抽出

オーディオセグメントからスペクトルパラメーターを抽出する

audioFeatureExtractor (Audio Toolbox), mfcc (Audio Toolbox)

Plot of original audio.

処理された出力:

ans = struct with fields:
                mfcc: [1 2 3 4 5 6 7 8 9 10 11 12 13]
           mfccDelta: [14 15 16 17 18 19 20 21 22 23 24 25 26]
      mfccDeltaDelta: [27 28 29 30 31 32 33 34 35 36 37 38 39]
    spectralCentroid: 40
               pitch: 41

時間-周波数表現の作成

メルスペクトログラム、およびオーディオ信号のその他の 2 次元表現を作成する
事前学習済みの深層学習ネットワークに供給するためのオーディオ信号を準備する

melSpectrogram (Audio Toolbox), mdct (Audio Toolbox)
crepePreprocess (Audio Toolbox), openl3Preprocess (Audio Toolbox), vggishPreprocess (Audio Toolbox), yamnetPreprocess (Audio Toolbox)

From left to right, the figure shows the original audio, the MEL spectrogram, and the modified discrete cosine transform.

テキスト分析

Text Analytics Toolbox™ には、装置のログ、ニュースフィード、アンケート、オペレーターレポート、ソーシャルメディアなどのソースからの生テキストを処理するツールが含まれています。これらのツールを使用して、一般的なファイル形式からのテキストの抽出、生テキストの処理、個々の単語やマルチワードフレーズ (n-gram) の抽出、テキストから数値表現への変換、統計モデルの作成を行います。次の表に示す関数、およびツールボックスのその他の機能を使用して、テキストデータを処理できます。開始方法を示す例については、解析用のテキストデータの準備 (Text Analytics Toolbox)を参照してください。

前処理のタイプ説明関数のサンプル出力のサンプル

テキストのトークン化

テキストを解析して単語と句読点にする

前処理のタイプ	説明	関数のサンプル	出力のサンプル
テキストのトークン化	テキストを解析して単語と句読点にする	`tokenizedDocument` (Text Analytics Toolbox)	元の出力: `"A few tree limbs greater than 6 inches down on HWY 18 in Roseland."` 処理された出力: `15 tokens: A few tree limbs greater than 6 inches down on HWY 18 in Roseland` `.`
テキストのクリーンアップ	語形と大文字小文字のばらつきを除去する句読点を除去するストップワード、短い単語、および長い単語を除去する	`normalizeWords` (Text Analytics Toolbox) `erasePunctuation` (Text Analytics Toolbox) `removeStopWords` (Text Analytics Toolbox), `removeShortWords` (Text Analytics Toolbox), `removeLongWords` (Text Analytics Toolbox)	処理された出力: `15 tokens: a few tree limb great than 6 inch down on hwy 18 in roseland` `.` `14 tokens: a few tree limb great than 6 inch down on hwy 18 in roseland` `8 tokens: few tree limb great inch down hwy roseland`

tokenizedDocument (Text Analytics Toolbox)

元の出力:

"A few tree limbs greater than 6 inches down on HWY 18 in Roseland."

処理された出力:

15 tokens: A few tree limbs greater than 6 inches down on HWY 18 in Roseland .

テキストのクリーンアップ

語形と大文字小文字のばらつきを除去する
句読点を除去する
ストップワード、短い単語、および長い単語を除去する

normalizeWords (Text Analytics Toolbox)
erasePunctuation (Text Analytics Toolbox)
removeStopWords (Text Analytics Toolbox), removeShortWords (Text Analytics Toolbox), removeLongWords (Text Analytics Toolbox)

処理された出力:

15 tokens: a few tree limb great than 6 inch down on hwy 18 in roseland .

14 tokens: a few tree limb great than 6 inch down on hwy 18 in roseland

8 tokens: few tree limb great inch down hwy roseland

参考

領域固有の深層学習用途のためのデータの前処理

イメージ処理の使用例

オブジェクトの検出

セマンティック セグメンテーション

LiDAR 処理アプリケーション

信号処理の使用例

オーディオ処理の使用例

テキスト分析

参考

トピック

セマンティックセグメンテーション