このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
visionTransformer
構文
説明
[
は、パッチ サイズが 16 である基本サイズの ViT ニューラル ネットワーク (8,680 万パラメーター) を返します。ネットワークは、解像度が 384×384 である ImageNet 2012 データ セットを使用して微調整されます。net
,classNames
] = visionTransformer
この機能には、Deep Learning Toolbox™ ライセンスと Computer Vision Toolbox™ Model for Vision Transformer Network サポート パッケージが必要です。このサポート パッケージは、アドオン エクスプローラーからダウンロードできます。詳細については、アドオンの取得と管理を参照してください。
[
は、指定されたモデル名をもつ ViT ニューラル ネットワークを返します。net
,classNames
] = visionTransformer(modelName
)
[
は、1 つ以上の名前と値の引数を使用して追加のオプションを指定します。net
,classNames
] = visionTransformer(___,Name=Value
)
例
入力引数
名前と値の引数
出力引数
参照
[1] Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. "An Image is Worth 16x16 words: Transformers for Image Recognition at Scale." Preprint, submitted June 3, 2021. https://doi.org/10.48550/arXiv.2010.11929.
[2] Srivastava, Nitish, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. "Dropout: A Simple Way to Prevent Neural Networks from Overfitting." The Journal of Machine Learning Research 15, no. 1 (January 1, 2014): 1929–58
[3] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Communications of the ACM 60, no. 6 (May 24, 2017): 84–90. https://doi.org/10.1145/3065386.
拡張機能
バージョン履歴
R2023b で導入
参考
patchEmbeddingLayer
| trainnet
(Deep Learning Toolbox) | trainingOptions
(Deep Learning Toolbox) | dlnetwork
(Deep Learning Toolbox)
トピック
- イメージ分類のためのビジョン変換ネットワークの学習
- MATLAB による深層学習 (Deep Learning Toolbox)
- 深層学習層の一覧 (Deep Learning Toolbox)
- 深層学習のヒントとコツ (Deep Learning Toolbox)
- 深層学習用のデータセット (Deep Learning Toolbox)