事前学習済みの深層ニューラルネットワーク

自然イメージから強力で情報量の多い特徴を抽出するよう既に学習させてある事前学習済みのイメージ分類ニューラルネットワークを用意し、新しいタスクを学習させるための出発点として、そのニューラルネットワークを使用できます。事前学習済みのニューラルネットワークの大部分は、ImageNet データベース[1]のサブセットで学習しています。このデータベースは ImageNet Large-Scale Visual Recognition Challenge (ILSVRC)[2]で使用されています。これらのニューラルネットワークは、100 万個を超えるイメージで学習しており、イメージを 1000 個のオブジェクトカテゴリ (キーボード、マグカップ、鉛筆、多くの動物など) に分類できます。通常は、転移学習によって事前学習済みのニューラルネットワークを使用する方が、ニューラルネットワークにゼロから学習させるよりもはるかに簡単で時間がかかりません。

事前学習済みのニューラルネットワークは、次のタスクで使用できます。

目的	説明
分類	事前学習済みのニューラルネットワークを分類問題に直接適用します。新しいイメージを分類するには、`classify` を使用します。事前学習済みのニューラルネットワークを分類に使用する方法を示す例については、GoogLeNet を使用したイメージの分類を参照してください。
特徴抽出	層の活性化を特徴として使用することで、事前学習済みのニューラルネットワークを特徴抽出器として使用します。これらの活性化を、サポートベクターマシン (SVM) などの別の機械学習モデルの学習で特徴として使用できます。詳細については、特徴抽出を参照してください。例については、事前学習済みのネットワークを使用したイメージの特徴の抽出を参照してください。
転移学習	大規模なデータセットで学習させたニューラルネットワークから層を取り出し、新しいデータセットで微調整します。詳細については、転移学習を参照してください。簡単な例については、転移学習入門を参照してください。他の事前学習済みのニューラルネットワークを試してみるには、新しいイメージを分類するための深層学習ネットワークの学習を参照してください。

事前学習済みのニューラルネットワークの比較

事前学習済みのニューラルネットワークには、問題に適用するニューラルネットワークを選択する際に重要になるさまざまな特性があります。最も重要な特性は、ニューラルネットワークの精度、速度、およびサイズです。ニューラルネットワークの選択には、通常、これらの特性の間のトレードオフが生じます。以下のプロットを使用して、ニューラルネットワークを使用した予測に要する時間と ImageNet 検証精度を比較します。

ヒント

転移学習を始めるには、SqueezeNet や GoogLeNet など、高速なニューラルネットワークのいずれかを選択してみてください。繰り返しを迅速に実行でき、データの前処理手順や学習オプションなどのさまざまな設定を試すことができます。適切に機能する設定の感触を得てから、Inception-v3 や ResNet などのより正確なニューラルネットワークを試し、結果が改善されるか確認します。

Comparison of the accuracy and relative prediction time of the pretrained neural networks. As the accuracy of the pretrained neural networks increases, so does the relative prediction time.

メモ

以上のプロットは、さまざまなニューラルネットワークの相対速度の指標のみを示しています。厳密な予測と学習の反復回数は、使用するハードウェアとミニバッチサイズによって異なります。

精度が高く高速なものが優れたニューラルネットワークです。プロットには、最新の GPU (NVIDIA^® Tesla^® P100) およびサイズが 128 のミニバッチを使用した場合の、予測時間に対する分類精度が表示されています。予測時間は、最も高速なニューラルネットワークを基準にして測定されます。各マーカーの面積は、ディスク上でのニューラルネットワークのサイズに比例します。

ImageNet 検証セットでの分類精度は、ImageNet で学習させたニューラルネットワークの精度を測定する最も一般的な方法です。多くの場合、ImageNet において正確なニューラルネットワークは、転移学習または特徴抽出を使用して他の自然イメージデータセットに適用した場合にも正確です。このような汎化が可能である理由として、これらのニューラルネットワークが自然イメージから強力で情報量の多い特徴を抽出するよう学習済みであり、それらの特徴が他の類似データセットに汎化される点が挙げられます。ただし、ImageNet での高い精度は、必ずしも他のタスクにそのまま移行されないため、複数のニューラルネットワークを試すことをお勧めします。

制約のあるハードウェアを使用して予測を実行する場合やインターネットを介してニューラルネットワークを分散させる場合は、ディスクやメモリ上でのニューラルネットワークのサイズも考慮してください。

ニューラルネットワークの精度

ImageNet 検証セットでの分類精度を計算するには複数の方法があり、ソースによって異なる方法が使用されます。複数モデルのアンサンブルを使用する場合もあれば、複数のトリミングを使用して各イメージを複数回評価する場合もあります。場合によっては、標準的な (最上位の) 精度ではなく、上位 5 つの精度を見積もります。このような違いがあるため、異なるソースでの精度を直接比較することができないことがよくあります。Deep Learning Toolbox™ の事前学習済みのニューラルネットワークの精度は、単一モデルとイメージの中心での単一のトリミングを使用した、標準的な (最上位の) 精度です。

事前学習済みのニューラルネットワークの読み込み

SqueezeNet ニューラルネットワークを読み込むには、コマンドラインで squeezenet と入力します。

net = squeezenet;

その他のニューラルネットワークについては、googlenet などの関数を使用すると、アドオンエクスプローラーから事前学習済みのニューラルネットワークをダウンロードするためのリンクを取得できます。

次の表に、ImageNet で学習させた利用可能な事前学習済みのニューラルネットワークとそれらのプロパティの一部を示します。ニューラルネットワークの深さは、入力層から出力層までのパスにある逐次畳み込み層または全結合層の最大数として定義されます。すべてのニューラルネットワークの入力は RGB イメージです。

ニューラルネットワーク	深さ	サイズ	パラメーター数 (100 万個単位)	イメージ入力サイズ
`squeezenet`	18	5.2 MB	1.24	227-by-227
`googlenet`	22	27 MB	7.0	224-by-224
`inceptionv3`	48	89 MB	23.9	299-by-299
`densenet201`	201	77 MB	20.0	224-by-224
`mobilenetv2`	53	13 MB	3.5	224-by-224
`resnet18`	18	44 MB	11.7	224-by-224
`resnet50`	50	96 MB	25.6	224-by-224
`resnet101`	101	167 MB	44.6	224-by-224
`xception`	71	85 MB	22.9	299-by-299
`inceptionresnetv2`	164	209 MB	55.9	299-by-299
`shufflenet`	50	5.4 MB	1.4	224-by-224
`nasnetmobile`	*	20 MB	5.3	224-by-224
`nasnetlarge`	*	332 MB	88.9	331-by-331
`darknet19`	19	78 MB	20.8	256 x 256
`darknet53`	53	155 MB	41.6	256 x 256
`efficientnetb0`	82	20 MB	5.3	224-by-224
`alexnet`	8	227 MB	61.0	227-by-227
`vgg16`	16	515 MB	138	224-by-224
`vgg19`	19	535 MB	144	224-by-224

*NASNet-Mobile ニューラルネットワークおよび NASNet-Large ニューラルネットワークは、モジュールの線形シーケンスで構成されていません。

Places365 で学習させた GoogLeNet

標準の GoogLeNet ニューラルネットワークは ImageNet データセットで学習していますが、Places365 データセット[3][4]で学習させたニューラルネットワークを読み込むこともできます。Places365 で学習させたニューラルネットワークは、イメージを 365 個の異なる場所カテゴリ (野原、公園、滑走路、ロビーなど) に分類します。Places365 データセットで学習させた事前学習済みの GoogLeNet ニューラルネットワークを読み込むには、googlenet('Weights','places365') を使用します。転移学習を実行して新しいタスクを実行する場合、最も一般的な方法は、ImageNet で事前学習させたニューラルネットワークを使用することです。新しいタスクがシーンの分類に似ている場合は、Places-365 で学習させたニューラルネットワークを使用すると精度を改善できることがあります。

オーディオタスクに適した事前学習済みのニューラルネットワークの詳細については、オーディオアプリケーション用の事前学習済みのニューラルネットワークを参照してください。

事前学習済みのニューラルネットワークの可視化

ディープネットワークデザイナーを使用し、事前学習済みのニューラルネットワークを読み込んで可視化できます。

deepNetworkDesigner(squeezenet)

Deep Network Designer displaying a pretrained SqueezeNet neural network

層のプロパティを表示して編集するには、層を選択します。層のプロパティに関する情報については、層の名前の横にあるヘルプアイコンをクリックしてください。

Cross channel normalization layer selected in Deep Network Designer. The PROPERTIES pane shows the properties of the layer.

ディープネットワークデザイナーで [新規] をクリックし、事前学習済みの他のニューラルネットワークを探索します。

Deep Network Designer start page showing available pretrained neural networks

ニューラルネットワークをダウンロードする必要がある場合は、目的のニューラルネットワークで一時停止し、[インストール] をクリックしてアドオンエクスプローラーを開きます。

特徴抽出

特徴抽出は、ニューラルネットワーク全体の学習に時間や手間をかけずに深層学習の能力を活用できる簡単で高速な方法です。これが必要とするものは学習イメージを一巡する 1 つのパスのみであるため、GPU がない場合、特に便利です。事前学習済みのニューラルネットワークから学習済みのイメージの特徴を抽出し、fitcsvm (Statistics and Machine Learning Toolbox) を使用するサポートベクターマシンなどの分類器の学習でそれらの特徴を使用できます。

新しいデータセットの規模が非常に小さい場合、特徴抽出を試みてください。抽出された特徴についてシンプルな分類器に学習させるだけであるため、学習は高速です。また、学習するデータがほとんどないため、ニューラルネットワークの深い層を微調整しても精度が改善される可能性はあまりありません。

使用するデータが元のデータと非常によく似ている場合は、ニューラルネットワークの深い部分で抽出された、より具体的な特徴が、その新しいタスクに役立つ可能性が高くなります。
使用するデータが元のデータと大きく異なる場合、ニューラルネットワークの深い部分で抽出された特徴は、目的のタスクにあまり役立たない可能性があります。初期のニューラルネットワーク層から抽出された、より一般的な特徴について最後の分類器の学習を試みてください。新しいデータセットの規模が大きい場合、ゼロからのニューラルネットワークの学習を試みることもできます。

ResNets は多くの場合に適切な特徴抽出器です。事前学習済みのニューラルネットワークを特徴抽出に使用する方法を示す例については、事前学習済みのネットワークを使用したイメージの特徴の抽出を参照してください。

転移学習

事前学習済みのニューラルネットワークを開始点として、新しいデータセットについてニューラルネットワークに学習させることによって、ニューラルネットワークの深い層を微調整できます。多くの場合、転移学習を伴うニューラルネットワークを微調整する方が、新しいニューラルネットワークを構築して学習させるよりも簡単で時間がかかりません。このニューラルネットワークはイメージの特徴を既に多数学習していますが、ニューラルネットワークを微調整すると、新しいデータセットに固有の特徴をニューラルネットワークに学習させることができます。データセットが非常に大規模な場合、転移学習はゼロから学習する場合に比べて速くならない可能性があります。

ヒント

ニューラルネットワークを微調整すると、多くの場合、精度を最大限に高められます。非常に小さいデータセット (クラスごとのイメージ数が約 20 未満) の場合、代わりに特徴抽出を試みてください。

ニューラルネットワークの微調整は、単純な特徴抽出よりも時間と手間がかかりますが、ニューラルネットワークにさまざまな特徴セットの抽出を学習させることができるため、多くの場合に最終的なニューラルネットワークの精度が向上します。ニューラルネットワークには新しい特徴を学習するためのデータがあるので、新しいデータセットの規模があまり小さくなければ、通常は特徴抽出よりも微調整がうまく機能します。転移学習の実行方法を示す例は、ディープネットワークデザイナーを使用した転移学習および新しいイメージを分類するための深層学習ネットワークの学習を参照してください。

Transfer learning workflow

ニューラルネットワークのインポートとエクスポート

TensorFlow™ 2、TensorFlow-Keras、PyTorch^®、および ONNX™ (Open Neural Network Exchange) モデル形式から、ニューラルネットワークと層グラフをインポートできます。Deep Learning Toolbox のニューラルネットワークと層グラフを TensorFlow 2 および ONNX モデル形式にエクスポートすることもできます。

インポート関数

外部の深層学習プラットフォームとモデルの形式	`dlnetwork` としてのモデルのインポート
`SavedModel` 形式の TensorFlow ニューラルネットワークまたは TensorFlow-Keras ニューラルネットワーク	`importNetworkFromTensorFlow`
`.pt` ファイルに含まれるトレースされた PyTorch モデル	`importNetworkFromPyTorch`
ONNX モデル形式のニューラルネットワーク	`importNetworkFromONNX`

関数 importNetworkFromTensorFlow、importNetworkFromPyTorch、および importNetworkFromONNX は、これらの関数が組み込み MATLAB^® 層に変換できない TensorFlow 層、PyTorch 層、または ONNX 演算を含むモデルがインポートされたとき、カスタム層を自動的に生成します。これらの関数は、自動的に生成したカスタム層を現在のフォルダー内のパッケージに保存します。詳細については、Autogenerated Custom Layersを参照してください。

エクスポート関数

ニューラルネットワークまたは層グラフのエクスポート	外部の深層学習プラットフォームとモデルの形式
`exportNetworkToTensorFlow`	Python^® パッケージに含まれる TensorFlow 2 モデル
`exportONNXNetwork`	ONNX モデル形式

関数 exportNetworkToTensorFlow は、Deep Learning Toolbox のニューラルネットワークまたは層グラフを Python パッケージに含まれる TensorFlow モデルとして保存します。エクスポートされたモデルを読み込んで標準の TensorFlow 形式として保存する方法の詳細については、Load Exported TensorFlow ModelおよびSave Exported TensorFlow Model in Standard Formatを参照してください。

ONNX を中間形式として使用することで、ONNX モデルのエクスポートまたはインポートをサポートしている他の深層学習フレームワークと相互運用できます。

Import neural networks from and export neural networks to external deep learning platforms.

オーディオアプリケーション用の事前学習済みのニューラルネットワーク

Audio Toolbox™ には、事前学習済みの VGGish、YAMNet、OpenL3、および CREPE ニューラルネットワークが用意されています。MATLAB 内の関数 vggish (Audio Toolbox)、関数 yamnet (Audio Toolbox)、関数 openl3 (Audio Toolbox)、および関数 crepe (Audio Toolbox)、または Simulink^® 内の VGGish (Audio Toolbox) ブロックおよび YAMNet (Audio Toolbox) ブロックを使用して、事前学習済みのニューラルネットワークを直接操作します。ディープネットワークデザイナーを使用し、事前学習済みのオーディオニューラルネットワークをインポートして可視化することもできます。

次の表に、利用可能な事前学習済みのオーディオニューラルネットワークとそれらのプロパティの一部を示します。

ニューラルネットワーク	深さ	サイズ	パラメーター数 (100 万個単位)	入力サイズ
`crepe` (Audio Toolbox)	7	89.1 MB	22.2	1024×1×1
`openl3` (Audio Toolbox)	8	18.8 MB	4.68	128×199×1
`vggish` (Audio Toolbox)	9	289 MB	72.1	96×64×1
`yamnet` (Audio Toolbox)	28	15.5 MB	3.75	96×64×1

転移学習や特徴抽出を実行するには、VGGish および YAMNet を使用します。VGGish と OpenL3 の特徴埋め込みを抽出して、機械学習や深層学習のシステムに入力します。関数 classifySound (Audio Toolbox) と Sound Classifier (Audio Toolbox) ブロックは、YAMNet を使用して音を特定し、その音を 521 個のカテゴリのいずれかに分類します。関数 pitchnn (Audio Toolbox) は、CREPE を使用して、深層学習によるピッチ推定を実行します。

事前学習済みのオーディオニューラルネットワークを新しいタスクに適応させる方法を示す例については、Transfer Learning with Pretrained Audio Networks (Audio Toolbox)およびAdapt Pretrained Audio Network for New Data Using Deep Network Designerを参照してください。

オーディオアプリケーション用の深層学習の使用に関する詳細については、Deep Learning for Audio Applications (Audio Toolbox)を参照してください。

GitHub の事前学習済みモデル

最新の事前学習済みモデルを見つけるには、MATLAB Deep Learning Model Hub を参照してください。

次に例を示します。

GPT-2、BERT、FinBERT などの変換器モデルについては、Transformer Models for MATLAB の GitHub^® リポジトリを参照してください。
事前学習済みの EfficientDet-D0 オブジェクト検出モデルについては、Pretrained EfficientDet Network For Object Detection の GitHub リポジトリを参照してください。

参照

[1] ImageNet. http://www.image-net.org

[2] Russakovsky, O., Deng, J., Su, H., et al. “ImageNet Large Scale Visual Recognition Challenge.” International Journal of Computer Vision (IJCV). Vol 115, Issue 3, 2015, pp. 211–252

[3] Zhou, Bolei, Aditya Khosla, Agata Lapedriza, Antonio Torralba, and Aude Oliva. "Places: An image database for deep scene understanding." arXiv preprint arXiv:1610.02055 (2016).

[4] Places. http://places2.csail.mit.edu/

参考

外部の Web サイト

MATLAB Deep Learning Model Hub