positionEmbeddingLayer

位置埋め込み層

R2023b 以降

このページをすべて展開する

説明

位置埋め込み層は、シーケンシャルインデックスまたは空間インデックスをベクトルにマッピングします。トランスフォーマーニューラルネットワークでこの層を使用して、シーケンスまたはイメージにおけるデータの位置に関する情報を符号化します。

作成

構文

layer = positionEmbeddingLayer(outputSize,maxPosition)

layer = positionEmbeddingLayer(outputSize,maxPosition,Name=Value)

説明

layer = positionEmbeddingLayer(outputSize,maxPosition) は、位置埋め込み層を作成し、OutputSize プロパティと MaxPosition プロパティを設定します。

例

layer = positionEmbeddingLayer(outputSize,maxPosition,Name=Value) は、位置埋め込み層を作成し、1 つ以上の名前と値の引数を使用して、PositionDimension、Name、パラメーターと初期化、および学習率および正則化の各プロパティを設定します。

例

プロパティ

すべて展開する

位置埋め込み

`OutputSize` — 層出力のチャネル数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

層出力のチャネル数。正の整数として指定します。

`MaxPosition` — 層入力の最大シーケンス長または空間インデックス
読み取り専用: 正の整数

このプロパティは読み取り専用です。

層入力の最大シーケンス長または空間インデックス。正の整数として指定します。

`PositionDimension` — 埋め込む位置の次元
読み取り専用: `"auto"` (既定値) | `"temporal"` | `"spatial"`

このプロパティは読み取り専用です。

埋め込む位置の次元。次のいずれかの値として指定します。

"auto" — シーケンスまたは時空間の入力の場合、時間位置を埋め込みます。これは、"temporal" を使用することに相当します。1 次元イメージ入力の場合、空間位置を埋め込みます。これは、"spatial" を使用することに相当します。
"temporal" — 時間位置を埋め込みます。
"spatial" — 空間位置を埋め込みます。

パラメーターと初期化

`WeightsInitializer` — 重みを初期化する関数
`"narrow-normal"` (既定値) | `"glorot""he"` | `"zeros"` | `"ones"` | 関数ハンドル

重みを初期化する関数。次のいずれかの値として指定します。

"narrow-normal" — 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、重みを初期化します。
"glorot" — Glorot 初期化子[2] (Xavier 初期化子とも呼ばれる) を使用して重みを初期化します。Glorot 初期化子は、平均 0、分散 2/(numIn + numOut) の一様分布から個別にサンプリングを行います。ここで、numIn = MaxPosition および numOut = OutputSize です。
"he" — He 初期化子[3]を使用して重みを初期化します。He 初期化子は、平均 0、分散 2/numIn の正規分布からサンプリングを行います。ここで、numIn = MaxPosition です。
"zeros" — 0 で重みを初期化します。
"ones" — 1 で重みを初期化します。
関数ハンドル – カスタム関数で重みを初期化します。関数ハンドルを指定する場合、関数は weights = func(sz) という形式でなければなりません。ここで、sz は重みのサイズです。

この層では、Weights プロパティが空の場合にのみ重みが初期化されます。

データ型: char | string | function_handle

`Weights` — 学習可能なパラメーターの重み
`[]` (既定値) | 数値配列

学習可能なパラメーターの重み。OutputSize 行 MaxPosition 列の数値配列または [] として指定します。

層の重みは学習可能なパラメーターです。層の Weights プロパティを使用して、重みの初期値を直接指定できます。ネットワークに学習させるときに、層の Weights プロパティが空でない場合、trainnet 関数は Weights プロパティを初期値として使用します。Weights プロパティが空の場合、ソフトウェアは層の WeightsInitializer プロパティによって指定された初期化子を使用します。

データ型: single | double

学習率および正則化

`WeightLearnRateFactor` — 重みの学習率係数
`1` (既定値) | 非負のスカラー

重みの学習率係数。非負のスカラーとして指定します。

この係数にグローバル学習率が乗算されて、この層の重みの学習率が決定されます。たとえば、WeightLearnRateFactor が 2 の場合、この層の重みの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル学習率が決定されます。

`WeightL2Factor` — 重みの L₂ 正則化係数
1 (既定値) | 非負のスカラー

重みの L₂ 正則化係数。非負のスカラーとして指定します。

この係数にグローバル L₂ 正則化係数が乗算されて、この層の重みの L₂ 正則化が決定されます。たとえば、WeightL2Factor が 2 の場合、この層の重みの L₂ 正則化はグローバル L₂ 正則化係数の 2 倍になります。グローバル L₂ 正則化係数は、関数 trainingOptions を使用して指定できます。

層

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

層の名前。文字ベクトルまたは string スカラーとして指定します。Layer 配列入力の場合、trainnet 関数および dlnetwork 関数は、名前のない層に自動的に名前を割り当てます。

PositionEmbeddingLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: char | string

`NumInputs` — 入力の数
読み取り専用: `1` (既定値)

このプロパティは読み取り専用です。

層への入力の数。1 として格納されます。この層は単一の入力のみを受け入れます。

データ型: double

`InputNames` — 入力名
読み取り専用: `{'in'}` (既定値)

このプロパティは読み取り専用です。

入力名。{'in'} として格納されます。この層は単一の入力のみを受け入れます。

データ型: cell

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値)

このプロパティは読み取り専用です。

層からの出力の数。1 として格納されます。この層には単一の出力のみがあります。

データ型: double

`OutputNames` — 出力名
読み取り専用: `{'out'}` (既定値)

このプロパティは読み取り専用です。

出力名。{'out'} として格納されます。この層には単一の出力のみがあります。

データ型: cell

例

すべて折りたたむ

位置埋め込み層の作成

この例では次を使用します。

ライブスクリプトを開く

出力サイズが 300、最大位置が 128 の位置埋め込み層を作成します。

layer = positionEmbeddingLayer(300,128)

layer = 
  PositionEmbeddingLayer with properties:

                     Name: ''
               OutputSize: 300
              MaxPosition: 128
        PositionDimension: 'auto'
       WeightsInitializer: 'narrow-normal'
    WeightLearnRateFactor: 1
           WeightL2Factor: 1

   Learnable Parameters
                  Weights: []

   State Parameters
    No properties.

  Show all properties

dlnetwork オブジェクトを作成します。

net = dlnetwork;

位置埋め込み層を含むニューラルネットワークを作成します。

numChannels = 1;

embeddingOutputSize = 64;
numWords = 128;
maxPosition = 128;

numHeads = 4;
numKeyChannels = 4*embeddingOutputSize;

layers = [ 
    sequenceInputLayer(numChannels,Name="input")
    wordEmbeddingLayer(embeddingOutputSize,numWords,Name="word-emb")
    positionEmbeddingLayer(embeddingOutputSize,maxPosition,Name="pos-emb");
    additionLayer(2,Name="add")
    selfAttentionLayer(numHeads,numKeyChannels,AttentionMask="causal")
    fullyConnectedLayer(numWords)
    softmaxLayer];

net = addLayers(net,layers);
net = connectLayers(net,"word-emb","add/in2");

ニューラルネットワークアーキテクチャを表示します。

plot(net)
axis off
box off

Figure contains an axes object. The hidden axes object contains an object of type graphplot.

アルゴリズム

すべて展開する

位置埋め込み層

この層の出力は入力と同じ次元数をもちます。出力では、チャネル次元上の位置 p にある各ベクトルは Weights(:,p) です。ここで、Weights は学習可能なパラメーターの埋め込み重みです。

以下に例を示します。

numChannels×numObservations×numTimeSteps の配列で表されるベクトルシーケンスデータ X の場合 (numChannels、numObservations、numTimeSteps はそれぞれ入力のチャネル数、観測値数、タイムステップ数)、出力は OutputSize×numObservations×by-numTimeSteps の配列 Y となります。ここで、チャネル次元上の Y(:,:,t) の各ベクトルは Weights(:,t) となります。
height×numChannels×numObservations の配列で表される 1 次元イメージデータ X の場合 (height、numChannels、numObservations はそれぞれ入力イメージの高さ、チャネル数、観測値数)、出力は height×OutputSize×numObservations の配列 Y となります。ここで、チャネル次元上の Y(i,:,:) の各ベクトルは Weights(:,i) となります。
height×width×numChannels×numObservations×numTimeSteps の配列で表される 2 次元イメージシーケンスデータ X の場合 (height と width はそれぞれ入力イメージシーケンスの高さと幅、numChannels、numObservations、numTimeSteps はそれぞれ入力イメージシーケンスのチャネル数、観測値数、タイムステップ数)、出力は height×width×OutputSize×numObservations×numTimeSteps の配列 Y となります。ここで、チャネル次元上の Y(:,:,:,:,t) の各ベクトルは Weights(:,t) となります。

層の入力形式と出力形式

層配列内または層グラフ内の層は、形式を整えた dlarray オブジェクトとして後続の層にデータを渡します。dlarray オブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、4 次元配列として表された 2 次元イメージデータがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージデータは "SSCB" (空間、空間、チャネル、バッチ) という形式で記述できます。

functionLayer オブジェクトを使用するか、関数 forward と関数 predict を dlnetwork オブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらの dlarray オブジェクトを操作できます。

次の表は、PositionEmbeddingLayer オブジェクトでサポートされている入力形式、および対応する出力形式を示しています。ソフトウェアが nnet.layer.Formattable クラスを継承していないカスタム層、または Formattable プロパティが 0 (false) に設定された FunctionLayer オブジェクトに層の出力を渡す場合、その層は形式を整えていない dlarray オブジェクトを受け取り、この表に示された形式に従って次元が並べられます。ここには一部の形式のみを示します。層では、追加の "S" (空間) 次元または "U" (未指定) 次元をもつ形式など、追加の形式がサポートされている場合があります。

入力形式	位置の次元	出力形式
`"SCB"` (spatial、channel、batch)	`"auto"` `"spatial"`	`"SCB"` (spatial、channel、batch)
`"CBT"` (channel、batch、time)	`"auto"` `"temporal"`	`"CBT"` (channel、batch、time)
`"SCBT"` (spatial、channel、batch、time)	`"auto"` `"temporal"` `"spatial"`	`"SCBT"` (spatial、channel、batch、time)
`"SSCBT"` (spatial、spatial、channel、batch、time)	`"auto"` `"temporal"`	`"SSCBT"` (spatial、spatial、channel、batch、time)
`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)	`"auto"` `"temporal"`	`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)
`"SC"` (spatial、channel)	`"auto"` `"spatial"`	`"SC"` (spatial、channel)
`"SB"` (spatial、batch)	`"auto"` `"spatial"`	`"SCB"` (spatial、channel、batch)
`"SU"` (spatial、unspecified)	`"auto"` `"spatial"`	`"SCU"` (spatial、channel、unspecified)

dlnetwork オブジェクトでは、PositionEmbeddingLayer オブジェクトもこれらの入力形式と出力形式の組み合わせをサポートします。

入力形式	位置の次元	出力形式
`"CT"` (channel、time)	`"auto"` `"temporal"`	`"CT"` (channel、time)
`"SCT"` (spatial、channel、time)	`"auto"` `"temporal"` `"spatial"`	`"SCT"` (spatial、channel、time)
`"SSCT"` (spatial、spatial、channel、time)	`"auto"` `"temporal"`	`"SSCT"` (spatial、spatial、channel、time)
`"SSSCT"` (spatial、spatial、spatial、channel、time)	`"auto"` `"temporal"`	`"SSSCT"` (spatial、spatial、spatial、channel、time)
`"BT"` (batch、time)	`"auto"` `"temporal"`	`"CBT"` (channel、batch、time)
`"SBT"` (spatial、batch、time)	`"auto"` `"temporal"` `"spatial"`	`"SCBT"` (spatial、channel、batch、time)
`"SSBT"` (spatial、spatial、batch、time)	`"auto"` `"temporal"`	`"SSCBT"` (spatial、spatial、channel、batch、time)
`"SSSBT"` (spatial、spatial、spatial、batch、time)	`"auto"` `"temporal"`	`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)
`"ST"` (spatial、time)	`"auto"` `"temporal"` `"spatial"`	`"SCT"` (spatial、channel、time)
`"SST"` (spatial、spatial、time)	`"auto"` `"temporal"`	`"SSCT"` (spatial、spatial、channel、time)
`"SSST"` (spatial、spatial、spatial、time)	`"auto"` `"temporal"`	`"SSSCT"` (spatial、spatial、spatial、channel、time)
`"TU"` (time、unspecified)	`"auto"` `"temporal"`	`"CTU"` (channel、time、unspecified)

参照

[1] Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional Sequence to Sequence Learning." In Proceedings of the 34th International Conference on Machine Learning - Volume 70, 1243–52. ICML’17. Sydney, NSW, Australia: JMLR.org, 2017

[2] Glorot, Xavier, and Yoshua Bengio. "Understanding the Difficulty of Training Deep Feedforward Neural Networks." In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 249–356. Sardinia, Italy: AISTATS, 2010. https://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

[3] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification." In 2015 IEEE International Conference on Computer Vision (ICCV), 1026–34. Santiago, Chile: IEEE, 2015. https://doi.org/10.1109/ICCV.2015.123

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

サードパーティのライブラリに依存しない汎用 C/C++ コードを生成し、生成されたコードをハードウェアプラットフォームに展開できます。

コード生成では、この層への入力として、チャネル (C) の次元をもつ dlarray オブジェクトを渡さなければなりません。たとえば、コード生成では "SSC" や "SSCBT" などのデータ形式がサポートされます。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

深層学習ライブラリに依存しない CUDA コードを生成し、生成されたコードを NVIDIA^® GPU プロセッサを使用するプラットフォームに展開できます。

バージョン履歴

R2023b で導入

参考

positionEmbeddingLayer

説明

作成

構文

説明

プロパティ

位置埋め込み

OutputSize — 層出力のチャネル数 読み取り専用: 正の整数

MaxPosition — 層入力の最大シーケンス長または空間インデックス 読み取り専用: 正の整数

PositionDimension — 埋め込む位置の次元 読み取り専用: "auto" (既定値) | "temporal" | "spatial"

パラメーターと初期化

WeightsInitializer — 重みを初期化する関数 "narrow-normal" (既定値) | "glorot""he" | "zeros" | "ones" | 関数ハンドル

Weights — 学習可能なパラメーターの重み [] (既定値) | 数値配列

学習率および正則化

WeightLearnRateFactor — 重みの学習率係数 1 (既定値) | 非負のスカラー

WeightL2Factor — 重みの L2 正則化係数 1 (既定値) | 非負のスカラー

層

Name — 層の名前 '' (既定値) | 文字ベクトル | string スカラー

NumInputs — 入力の数 読み取り専用: 1 (既定値)

InputNames — 入力名 読み取り専用: {'in'} (既定値)

NumOutputs — 出力の数 読み取り専用: 1 (既定値)

OutputNames — 出力名 読み取り専用: {'out'} (既定値)

例

位置埋め込み層の作成

アルゴリズム

位置埋め込み層

層の入力形式と出力形式

参照

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

参考

トピック

`OutputSize` — 層出力のチャネル数
読み取り専用: 正の整数

`MaxPosition` — 層入力の最大シーケンス長または空間インデックス
読み取り専用: 正の整数

`PositionDimension` — 埋め込む位置の次元
読み取り専用: `"auto"` (既定値) | `"temporal"` | `"spatial"`

`WeightsInitializer` — 重みを初期化する関数
`"narrow-normal"` (既定値) | `"glorot""he"` | `"zeros"` | `"ones"` | 関数ハンドル

`Weights` — 学習可能なパラメーターの重み
`[]` (既定値) | 数値配列

`WeightLearnRateFactor` — 重みの学習率係数
`1` (既定値) | 非負のスカラー

`WeightL2Factor` — 重みの L₂ 正則化係数
1 (既定値) | 非負のスカラー

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

`NumInputs` — 入力の数
読み取り専用: `1` (既定値)

`InputNames` — 入力名
読み取り専用: `{'in'}` (既定値)

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値)

`OutputNames` — 出力名
読み取り専用: `{'out'}` (既定値)

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。