visionTransformer

事前学習済みビジョントランスフォーマー (ViT) ニューラルネットワーク

R2023b 以降

構文

[net,classNames] = visionTransformer

[net,classNames] = visionTransformer(modelName)

[net,classNames] = visionTransformer(___,Name=Value)

説明

[net,classNames] = visionTransformer は、パッチサイズが 16 である基本サイズの ViT ニューラルネットワーク (8,680 万パラメーター) を返します。ネットワークは、解像度が 384×384 である ImageNet 2012 データセットを使用して微調整されます。

この機能には、Deep Learning Toolbox™ ライセンスと Computer Vision Toolbox™ Model for Vision Transformer Network サポートパッケージが必要です。このサポートパッケージは、アドオンエクスプローラーからダウンロードできます。詳細については、アドオンの取得と管理を参照してください。

例

[net,classNames] = visionTransformer(modelName) は、指定されたモデル名をもつ ViT ニューラルネットワークを返します。

[net,classNames] = visionTransformer(___,Name=Value) は、1 つ以上の名前と値の引数を使用して追加のオプションを指定します。

例

すべて折りたたむ

ViT ニューラルネットワークの読み込み

この例では次を使用します。

ライブスクリプトを開く

visionTransformer 関数を使用して、事前学習済みの ViT ニューラルネットワークを読み込みます。Computer Vision Toolbox™ Model for Vision Transformer Network サポートパッケージがインストールされていない場合、関数は、必要なサポートパッケージへのリンクをアドオンエクスプローラーに表示します。サポートパッケージをインストールするには、リンクをクリックして、[インストール] をクリックします。

事前学習済みの ViT ニューラルネットワークとクラス名を読み込みます。必要なサポートパッケージがインストールされている場合、この関数は、dlnetwork オブジェクト、およびクラス名の string 配列を返します。

[net,classNames] = visionTransformer;

ニューラルネットワークを表示します。

net

net = 
  dlnetwork with properties:

         Layers: [143×1 nnet.cnn.layer.Layer]
    Connections: [167×2 table]
     Learnables: [200×3 table]
          State: [1×3 table]
     InputNames: {'imageinput'}
    OutputNames: {'softmax'}
    Initialized: 1

  View summary with summary.

クラス数を表示します。

numClasses = numel(classNames)

numClasses = 
1000

入力引数

すべて折りたたむ

`modelName` — モデル名
`"base-16-imagenet-384"` (既定値) | `"small-16-imagenet-384"` | `"tiny-16-imagenet-384"`

モデル名。次のいずれかの値として指定します。

モデル名	ニューラルネットワーク名	パラメーターメモリ	パラメーター数 (100 万個単位)	イメージ入力サイズ	入力値の範囲	入力層の正規化
`"base-16-imagenet-384"`	パッチサイズ 16 の基本サイズ ViT (解像度 384×384 の ImageNet 2012 データセットを使用して微調整済み)。	331 MB	86.8	384×384	[0, 255]	`"zscore"`
`"small-16-imagenet-384"`	パッチサイズ 16 の小型サイズ ViT (解像度 384×384 の ImageNet 2012 データセットを使用して微調整済み)。	85 MB	22.1	384×384	[0, 255]	`"zscore"`
`"tiny-16-imagenet-384"`	パッチサイズ 16 の極小サイズ ViT (解像度 384×384 の ImageNet 2012 データセットを使用して微調整済み)	22 MB	5.7	384×384	[0, 255]	`"zscore"`

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

例: visionTransformer(DropoutProbability=0.2) は、ドロップアウトの確率が 0.2 に設定された、事前学習済みのビジョントランスフォーマーニューラルネットワークを返します。

`DropoutProbability` — ドロップアウト層で入力要素をドロップアウトする確率
`0.1` (既定値) | 範囲 [0, 1) のスカラー

ドロップアウト層で入力要素をドロップアウトする確率。範囲 [0, 1) のスカラーとして指定します。

ドロップアウト層を使用してニューラルネットワークに学習させる場合、層はドロップアウトマスク rand(size(X)) < p を使用して入力要素をランダムにゼロに設定します。ここで、X は層の入力、p は層のドロップアウトの確率です。その後、層は残りの要素を 1/(1-p) でスケーリングします。

この操作は、ネットワークの過適合を防ぐのに役立ちます[2]、[3]。大きい数値を指定するほど、ネットワークによって学習時にドロップされる要素の数が増加します。予測時には、この層の出力はその入力と等しくなります。

`AttentionDropoutProbability` — 注意層で入力要素をドロップアウトする確率
`0.1` (既定値) | 範囲 [0, 1) のスカラー

注意層で入力要素をドロップアウトする確率。範囲 [0, 1) のスカラーとして指定します。

注意層を使用してニューラルネットワークに学習させる場合、層はドロップアウトマスク rand(size(scores)) < p を使用してアテンションスコアをランダムにゼロに設定します。ここで、scores は層の入力、p は層のドロップアウトの確率です。その後、層は残りの要素を 1/(1-p) でスケーリングします。

出力引数

すべて折りたたむ

`net` — 事前学習済みの ViT ニューラルネットワーク
`dlnetwork` オブジェクト

事前学習済みの ViT ニューラルネットワーク。dlnetwork (Deep Learning Toolbox) オブジェクトとして返されます。

`classNames` — クラス名
string 配列

クラス名。string 配列として返されます。

参照

[1] Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. "An Image is Worth 16x16 words: Transformers for Image Recognition at Scale." Preprint, submitted June 3, 2021. https://doi.org/10.48550/arXiv.2010.11929.

[2] Srivastava, Nitish, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. "Dropout: A Simple Way to Prevent Neural Networks from Overfitting." The Journal of Machine Learning Research 15, no. 1 (January 1, 2014): 1929–58

[3] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Communications of the ACM 60, no. 6 (May 24, 2017): 84–90. https://doi.org/10.1145/3065386.

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

サードパーティのライブラリに依存しない汎用 C/C++ コードを生成し、生成されたコードをハードウェアプラットフォームに展開できます。
任意のサードパーティライブラリを必要とするコード生成はサポートされていません。コードを生成するには、事前学習済みのネットワークを MAT ファイルに保存し、coder.loadDeepLearningNetwork (MATLAB Coder) を使用してそのネットワークを読み込みます。詳細については、コード生成のための事前学習済みネットワークの読み込み (MATLAB Coder)を参照してください。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限:

深層学習ライブラリに依存しない CUDA コードを生成し、生成されたコードを NVIDIA^® GPU プロセッサを使用するプラットフォームに展開できます。
任意の深層学習ライブラリを必要とするコード生成はサポートされていません。コードを生成するには、事前学習済みのネットワークを MAT ファイルに保存し、coder.loadDeepLearningNetwork (GPU Coder) を使用してそのネットワークを読み込みます。詳細については、コード生成用の事前学習済みのネットワークの読み込み (GPU Coder)を参照してください。

バージョン履歴

R2023b で導入

参考

patchEmbeddingLayer | trainnet (Deep Learning Toolbox) | trainingOptions (Deep Learning Toolbox) | dlnetwork (Deep Learning Toolbox)

visionTransformer

構文

説明

例

ViT ニューラル ネットワークの読み込み

入力引数

modelName — モデル名 "base-16-imagenet-384" (既定値) | "small-16-imagenet-384" | "tiny-16-imagenet-384"

名前と値の引数

DropoutProbability — ドロップアウト層で入力要素をドロップアウトする確率 0.1 (既定値) | 範囲 [0, 1) のスカラー

AttentionDropoutProbability — 注意層で入力要素をドロップアウトする確率 0.1 (既定値) | 範囲 [0, 1) のスカラー

出力引数

net — 事前学習済みの ViT ニューラル ネットワーク dlnetwork オブジェクト

classNames — クラス名 string 配列

参照

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

参考

トピック

ViT ニューラルネットワークの読み込み

`modelName` — モデル名
`"base-16-imagenet-384"` (既定値) | `"small-16-imagenet-384"` | `"tiny-16-imagenet-384"`

`DropoutProbability` — ドロップアウト層で入力要素をドロップアウトする確率
`0.1` (既定値) | 範囲 [0, 1) のスカラー

`AttentionDropoutProbability` — 注意層で入力要素をドロップアウトする確率
`0.1` (既定値) | 範囲 [0, 1) のスカラー

`net` — 事前学習済みの ViT ニューラルネットワーク
`dlnetwork` オブジェクト

`classNames` — クラス名
string 配列

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。