sinusoidalPositionEncodingLayer

正弦波位置符号化層

R2023b 以降

このページをすべて展開する

説明

正弦波位置符号化層は、正弦関数演算を使用して位置インデックスをベクトルにマッピングします。トランスフォーマーニューラルネットワークでこの層を使用して、シーケンスまたはイメージにおけるデータの位置に関する情報を提供します。

作成

構文

layer = sinusoidalPositionEncodingLayer(outputSize)

layer = sinusoidalPositionEncodingLayer(outputSize,Name=Value)

説明

layer = sinusoidalPositionEncodingLayer(outputSize) は、正弦波位置符号化層を作成し、OutputSize プロパティを設定します。

例

layer = sinusoidalPositionEncodingLayer(outputSize,Name=Value) は、正弦波位置符号化層を作成し、1 つ以上の名前と値の引数を使用して Positions プロパティおよび Name プロパティを設定します。

例

プロパティ

すべて展開する

正弦波位置の符号化

`OutputSize` — 層出力のチャネル数
読み取り専用: 正の偶数

このプロパティは読み取り専用です。

層出力のチャネル数。正の偶数として指定します。

`Positions` — 入力内の位置
読み取り専用: `"auto"` (既定値) | `"temporal-indicies"` | `"spatial-indicies"` | `"data-values"`

このプロパティは読み取り専用です。

入力内の位置。次のいずれかの値として指定します。

"auto" — シーケンスまたは時空間の入力の場合、時間インデックスを位置として使用します。これは、"temporal-indices" を使用することに相当します。1 次元イメージ入力の場合、空間インデックスを位置として使用します。これは、"spatial-indices" を使用することに相当します。その他の入力の場合、入力値を位置として使用します。これは、"data-values" を使用することに相当します。
"temporal-indices" — 入力の時間インデックスを位置として使用します。
"spatial-indices" — 入力の空間インデックスを位置として使用します。
"data-values" — 入力の値を位置として使用します。

層

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

層の名前。文字ベクトルまたは string スカラーとして指定します。Layer 配列入力の場合、trainnet 関数および dlnetwork 関数は、名前のない層に自動的に名前を割り当てます。

SinusoidalPositionEncodingLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: char | string

`NumInputs` — 入力の数
読み取り専用: `1` (既定値)

このプロパティは読み取り専用です。

層への入力の数。1 として格納されます。この層は単一の入力のみを受け入れます。

データ型: double

`InputNames` — 入力名
読み取り専用: `{'in'}` (既定値)

このプロパティは読み取り専用です。

入力名。{'in'} として格納されます。この層は単一の入力のみを受け入れます。

データ型: cell

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値)

このプロパティは読み取り専用です。

層からの出力の数。1 として格納されます。この層には単一の出力のみがあります。

データ型: double

`OutputNames` — 出力名
読み取り専用: `{'out'}` (既定値)

このプロパティは読み取り専用です。

出力名。{'out'} として格納されます。この層には単一の出力のみがあります。

データ型: cell

例

すべて折りたたむ

正弦波位置符号化層の作成

この例では次を使用します。

ライブスクリプトを開く

出力サイズが 300 である正弦波位置符号化層を作成します。

layer = sinusoidalPositionEncodingLayer(300)

layer = 
  SinusoidalPositionEncodingLayer with properties:

          Name: ''
    OutputSize: 300
     Positions: 'auto'

   Learnable Parameters
    No properties.

   State Parameters
    No properties.

  Show all properties

正弦波位置符号化層を含むニューラルネットワークを作成します。

net = dlnetwork;

numChannels = 1;

embeddingOutputSize = 64;
numWords = 128;
maxPosition = 128;

numHeads = 4;
numKeyChannels = 4*embeddingOutputSize;

layers = [ 
    sequenceInputLayer(numChannels,Name="input")
    wordEmbeddingLayer(embeddingOutputSize,numWords,Name="word-emb")
    sinusoidalPositionEncodingLayer(embeddingOutputSize,Name="pos-enc");
    additionLayer(2,Name="add")
    selfAttentionLayer(numHeads,numKeyChannels,AttentionMask="causal")
    fullyConnectedLayer(numWords)
    softmaxLayer];

net = addLayers(net,layers);

net = connectLayers(net,"word-emb","add/in2");

ニューラルネットワークアーキテクチャを表示します。

plot(net)
axis off
box off

Figure contains an axes object. The hidden axes object contains an object of type graphplot.

アルゴリズム

すべて展開する

正弦波位置符号化層

正弦波位置符号化層は、正弦関数演算を使用して位置インデックスをベクトルにマッピングします。この層は、トランスフォーマーニューラルネットワークのデータの位置情報を符号化します。

この層の出力は入力と同じ次元数をもちます。出力では、チャネル次元上の位置 p にある各ベクトルは次のように与えられます。

$Y_{p} = [\begin{matrix} \sin (ω_{1} \cdot p) \\ \cos (ω_{1} \cdot p) \\ \sin (ω_{2} \cdot p) \\ \cos (ω_{2} \cdot p) \\ ⋮ \\ \sin (ω_{d / 2} \cdot p) \\ \cos (ω_{d / 2} \cdot p) \end{matrix}],$

ここで、p は位置、d は OutputSize で与えられる符号化出力サイズ、 $ω_{k}$ は次式で与えられる波長です。

$ω_{k} = \frac{1}{10000^{2 k / d}},$

ただし、 $k = 1, \dots, d / 2$ です。

Positions が "auto" である場合、出力のレイアウトはデータのタイプによって異なります。

numChannels×numObservations×numTimeSteps の配列で表されるシーケンスデータ X の場合 (numChannels、numObservations、numTimeSteps はそれぞれ入力のチャネル数、観測値数、タイムステップ数)、出力は OutputSize×numObservations×by-numTimeSteps の配列 Y となります。ここで、チャネル次元上の Y(:,:,t) の各ベクトルは $Y_{t}$ となります。
height×numChannels×numObservations の配列で表される 1 次元イメージデータ X の場合 (height、numChannels、numObservations はそれぞれ入力イメージの高さ、チャネル数、観測値数)、出力は height×OutputSize×numObservations の配列 Y となります。ここで、チャネル次元上の Y(i,:,:) の各ベクトルは $Y_{i}$ となります。
height×width×numChannels×numObservations×numTimeSteps の配列で表される 2 次元イメージシーケンスデータ X の場合 (height と width はそれぞれ入力イメージシーケンスの高さと幅、numChannels、numObservations、numTimeSteps はそれぞれ入力イメージシーケンスのチャネル数、観測値数、タイムステップ数)、出力は height×width×OutputSize×numObservations×numTimeSteps の配列 Y となります。ここで、チャネル次元上の Y(:,:,:,:,t) の各ベクトルは $Y_{t}$ となります。

層の入力形式と出力形式

層配列内または層グラフ内の層は、形式を整えた dlarray オブジェクトとして後続の層にデータを渡します。dlarray オブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、4 次元配列として表された 2 次元イメージデータがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージデータは "SSCB" (空間、空間、チャネル、バッチ) という形式で記述できます。

functionLayer オブジェクトを使用するか、関数 forward と関数 predict を dlnetwork オブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらの dlarray オブジェクトを操作できます。

次の表は、SinusoidalPositionEncodingLayer オブジェクトでサポートされている入力形式、および対応する出力形式を示しています。ソフトウェアが nnet.layer.Formattable クラスを継承していないカスタム層、または Formattable プロパティが 0 (false) に設定された FunctionLayer オブジェクトに層の出力を渡す場合、その層は形式を整えていない dlarray オブジェクトを受け取り、この表に示された形式に従って次元が並べられます。ここには一部の形式のみを示します。層では、追加の "S" (空間) 次元または "U" (未指定) 次元をもつ形式など、追加の形式がサポートされている場合があります。

入力形式	位置	出力形式
`"CB"` (channel、batch)	`"auto"` `"data-values"`	`"CB"` (channel、batch)
`"SCB"` (spatial、channel、batch)	`"auto"` `"spatial-indices"` `"data-values"`	`"SCB"` (spatial、channel、batch)
`"SSCB"` (spatial、spatial、channel、batch)	`"data-values"`	`"SSCB"` (spatial、spatial、channel、batch)
`"SSSCB"` (spatial、spatial、spatial、channel、batch)	`"data-values"`	`"SSSCB"` (spatial、spatial、spatial、channel、batch)
`"CBT"` (channel、batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"CBT"` (channel、batch、time)
`"SCBT"` (spatial、channel、batch、time)	`"auto"` `"temporal-indices"` `"spatial-indices"` `"data-values"`	`"SCBT"` (spatial、channel、batch、time)
`"SSCBT"` (spatial、spatial、channel、batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSCBT"` (spatial、spatial、channel、batch、time)
`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)
`"SC"` (spatial、channel)	`"auto"` `"spatial-indices"` `"data-values"`	`"SC"` (spatial、channel)
`"SSC"` (spatial、spatial、channel)	`"data-values"`	`"SSC"` (spatial、spatial、channel)
`"SSSC"` (spatial、spatial、spatial、channel)	`"data-values"`	`"SSSC"` (spatial、spatial、spatial、channel)
`"SB"` (spatial、batch)	`"auto"` `"spatial-indices"` `"data-values"`	`"SCB"` (spatial、channel、batch)
`"SSB"` (spatial、spatial、batch)	`"data-values"`	`"SSCB"` (spatial、spatial、channel、batch)
`"SSSB"` (spatial、spatial、spatial、batch)	`"data-values"`	`"SSSCB"` (spatial、spatial、spatial、channel、batch)
`"SS"` (空間、空間)	`"data-values"`	`"SSC"` (spatial、spatial、channel)
`"SSS"` (空間、空間、空間)	`"data-values"`	`"SSSC"` (spatial、spatial、spatial、channel)
`"SU"` (spatial、unspecified)	`"auto"` `"spatial-indices"` `"data-values"`	`"SCU"` (spatial、channel、unspecified)
`"BU"` (batch、unspecified)	`"auto"` `"data-values"`	`"CBU"` (チャネル、バッチ、指定なし)
`"UU"` (unspecified、unspecified)	`"auto"` `"data-values"`	`"CUU"` (チャネル、指定なし、指定なし)
`"UUU"` (unspecified、unspecified、unspecified)	`"auto"` `"data-values"`	`"CUUU"` (チャネル、指定なし、指定なし、指定なし)
`"UUUU"` (unspecified、unspecified、unspecified、unspecified)	`"auto"` `"data-values"`	`"CUUUU"` (チャネル、指定なし、指定なし、指定なし、指定なし)
`"UUUUU"` (指定なし、指定なし、指定なし、指定なし、指定なし)	`"auto"` `"data-values"`	`"CUUUUU"` (チャネル、指定なし、指定なし、指定なし、指定なし、指定なし)

dlnetwork オブジェクトでは、SinusoidalPositionEncodingLayer オブジェクトもこれらの入力形式と出力形式の組み合わせをサポートします。

入力形式	位置	出力形式
`"CT"` (channel、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"CT"` (channel、time)
`"SCT"` (spatial、channel、time)	`"auto"` `"temporal-indices"` `"spatial-indices"` `"data-values"`	`"SCT"` (spatial、channel、time)
`"SSCT"` (spatial、spatial、channel、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSCT"` (spatial、spatial、channel、time)
`"SSSCT"` (spatial、spatial、spatial、channel、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSSCT"` (spatial、spatial、spatial、channel、time)
`"BT"` (batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"CBT"` (channel、batch、time)
`"SBT"` (spatial、batch、time)	`"auto"` `"temporal-indices"` `"spatial-indices"` `"data-values"`	`"SCBT"` (spatial、channel、batch、time)
`"SSBT"` (spatial、spatial、batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSCBT"` (spatial、spatial、channel、batch、time)
`"SSSBT"` (spatial、spatial、spatial、batch、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)
`"ST"` (spatial、time)	`"auto"` `"temporal-indices"` `"spatial-indices"` `"data-values"`	`"SCT"` (spatial、channel、time)
`"SST"` (spatial、spatial、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSCT"` (spatial、spatial、channel、time)
`"SSST"` (spatial、spatial、spatial、time)	`"auto"` `"temporal-indices"` `"data-values"`	`"SSSCT"` (spatial、spatial、spatial、channel、time)
`"TU"` (time、unspecified)	`"auto"` `"temporal-indices"` `"data-values"`	`"CTU"` (channel、time、unspecified)

参照

[1] Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In Advances in Neural Information Processing Systems, Vol. 30. Curran Associates, Inc., 2017. https://papers.nips.cc/paper/7181-attention-is-all-you-need.

バージョン履歴

R2023b で導入

参考

sinusoidalPositionEncodingLayer

説明

作成

構文

説明

プロパティ

正弦波位置の符号化

OutputSize — 層出力のチャネル数 読み取り専用: 正の偶数

Positions — 入力内の位置 読み取り専用: "auto" (既定値) | "temporal-indicies" | "spatial-indicies" | "data-values"

層

Name — 層の名前 '' (既定値) | 文字ベクトル | string スカラー

NumInputs — 入力の数 読み取り専用: 1 (既定値)

InputNames — 入力名 読み取り専用: {'in'} (既定値)

NumOutputs — 出力の数 読み取り専用: 1 (既定値)

OutputNames — 出力名 読み取り専用: {'out'} (既定値)

例

正弦波位置符号化層の作成

アルゴリズム

正弦波位置符号化層

層の入力形式と出力形式

参照

バージョン履歴

参考

トピック

`OutputSize` — 層出力のチャネル数
読み取り専用: 正の偶数

`Positions` — 入力内の位置
読み取り専用: `"auto"` (既定値) | `"temporal-indicies"` | `"spatial-indicies"` | `"data-values"`

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

`NumInputs` — 入力の数
読み取り専用: `1` (既定値)

`InputNames` — 入力名
読み取り専用: `{'in'}` (既定値)

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値)

`OutputNames` — 出力名
読み取り専用: `{'out'}` (既定値)