attentionLayer

ドット積注意層

R2024a 以降

このページをすべて展開する

説明

ドット積注意層は、重み付き乗算演算を使用して入力の一部に焦点を当てます。

作成

構文

layer = attentionLayer(numHeads)

layer = attentionLayer(numHeads,Name=Value)

説明

layer = attentionLayer(numHeads) はドット積注意層を作成し、NumHeads プロパティを設定します。

例

layer = attentionLayer(numHeads,Name=Value) は、1 つ以上の名前と値の引数を使用して、Scale、HasPaddingMaskInput、HasScoresOutput、AttentionMask、DropoutProbability、および Name の各プロパティも設定します。

プロパティ

すべて展開する

アテンション

`NumHeads` — ヘッドの数
正の整数

ヘッドの数。正の整数として指定します。

各ヘッドは入力に対して個別の線形変換を実行し、アテンションの重みを独立して計算します。層はこれらのアテンション重みを使用して入力表現の重み付き和を計算し、コンテキストベクトルを生成します。ヘッドの数を増やすと、モデルはさまざまな種類の依存関係を捉え、入力のさまざまな部分に同時に注意を向けることができるようになります。ヘッドの数を減らすと、層の計算コストを削減できます。

NumHeads の値は、入力されたクエリ、キー、および値のチャネル次元のサイズを均等に分割しなければなりません。

`Scale` — クエリとキーのドット積をスケーリングするための乗法係数
`"auto"` | 数値スカラー

クエリとキーのドット積をスケーリングするための乗法係数。次のいずれかの値として指定します。

"auto" — ドット積を 1/sqrt(D) で乗算します。ここで、D はキーのチャネル数を NumHeads で割った値です。
数値スカラー — ドット積を指定されたスカラーで乗算します。

`HasPaddingMaskInput` — 層にマスク入力があるかどうかを示すフラグ
`0` (`false`) (既定値) | `1` (`true`)

層にパディングマスクを表す入力があるかどうかを示すフラグ。0 (false) または 1 (true) として指定します。

HasPaddingMaskInput プロパティが 0 (false) の場合、層は、それぞれ入力されたクエリ、キー、および値に対応する "query"、"key"、および "value" という名前の 3 つの入力をもちます。この場合、層はすべての要素をデータとして扱います。

HasPaddingMaskInput プロパティが 1 (true) の場合、層は、パディングマスクに対応する "mask" という名前の追加の入力をもちます。この場合、パディングマスクは 1 と 0 から成る配列になります。層は、クエリ、キー、値の要素について、マスク内の対応する要素が 1 の場合は使用し、0 の場合は無視します。

パディングマスクの形式は入力されたキーの形式と一致していなければなりません。パディングマスクの "S" (空間)、"T" (時間)、および "B" (バッチ) の次元のサイズは、キーと値の対応する次元のサイズと一致していなければなりません。

パディングマスクには任意の数のチャネルを含めることができます。ソフトウェアは、パディング値を示すために最初のチャネルの値のみを使用します。

`HasScoresOutput` — 層にスコア出力があるかどうかを示すフラグ
`0` (`false`) (既定値) | `1` (`true`)

層にスコア (アテンションの重みとも呼ばれる) を表す出力があるかどうかを示すフラグ。0 (false) または 1 (true) として指定します。

HasScoresOutput プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

HasScoresOutput プロパティが 1 (true) の場合、層は、それぞれ出力データおよびアテンションスコアに対応する "out" および "scores" という名前の 2 つの入力をもちます。

`AttentionMask` — アテンションマスク
`"none"` (既定値) | `"causal"` | 数値配列 | logical 配列

attention 演算を適用するときに含める要素を示すアテンションマスク。次のいずれかの値として指定します。

"none" — 位置に関係なく、要素に注意を払うことを抑制しません。AttentionMask が "none" である場合、ソフトウェアはパディングマスクのみを使用して注意を抑制します。
"causal" — 入力されたクエリの "S" (空間) または "T" (時間) 次元の位置 m にある要素が、入力されたキーと値の対応する次元において、位置 n (n は m より大きい) にある要素に注意を払うことを抑制します。このオプションは自己回帰モデルに使用します。
論理配列または数値配列 — 指定された配列内の対応する要素が 0 である場合、入力されたキーと値の要素に注意を払うことを抑制します。指定された配列は、N_k 行 N_q 列の行列、または N_k×N_q×numObservations の配列でなければなりません。N_k は入力されたキーの "S" (空間) 次元または "T" (時間) 次元のサイズ、N_q は入力されたクエリの対応する次元のサイズ、numObservations は入力されたクエリの "B" 次元のサイズです。

`DropoutProbability` — アテンションスコアのドロップアウト確率
`0` (既定値) | 範囲 [0, 1) のスカラー

アテンションスコアをドロップアウトする確率。範囲 [0, 1) のスカラーとして指定します。

学習中、ソフトウェアは指定された確率を使用して、アテンションスコアの値をランダムにゼロに設定します。これらのドロップアウトにより、モデルが特定の依存関係に過度に依存することを防ぎ、より堅牢で一般化可能な表現を学習できるようになります。

層

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

層の名前。文字ベクトルまたは string スカラーとして指定します。Layer 配列入力の場合、trainnet 関数および dlnetwork 関数は、名前のない層に自動的に名前を割り当てます。

AttentionLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: char | string

`NumInputs` — 入力の数
`3` (既定値) | `4`

層への入力の数。3 または 4 として返されます。

データ型: double

`InputNames` — 入力名
`["query" "key" "value"]` (既定値) | `["query" "key" "value" "mask"]`

層の入力名。文字ベクトルの cell 配列として返されます。

AttentionLayer オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値) | `2`

このプロパティは読み取り専用です。

層の出力の数。

HasScoresOutput プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

データ型: double

`OutputNames` — 出力名
読み取り専用: `"out"` (既定値) | `["out" "scores"]`

このプロパティは読み取り専用です。

層の出力名。

HasScoresOutput プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

AttentionLayer オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。

例

すべて折りたたむ

注意層の作成

ライブスクリプトを開く

10 個のヘッドをもつドット積注意層を作成します。

layer = attentionLayer(10)

layer = 
  AttentionLayer with properties:

                   Name: ''
              NumInputs: 3
             InputNames: {'query'  'key'  'value'}
               NumHeads: 10
                  Scale: 'auto'
          AttentionMask: 'none'
     DropoutProbability: 0
    HasPaddingMaskInput: 0
        HasScoresOutput: 0

   Learnable Parameters
    No properties.

   State Parameters
    No properties.

  Show all properties

クロスアテンションニューラルネットワークの作成

ライブスクリプトを開く

クロスアテンションによるシンプルなニューラルネットワークを作成します。

numChannels = 256;
numHeads = 8;

net = dlnetwork;

layers = [
    sequenceInputLayer(1,Name="query")
    fullyConnectedLayer(numChannels)
    attentionLayer(numHeads,Name="attention")
    fullyConnectedLayer(numChannels,Name="fc-out")];

net = addLayers(net,layers);

layers = [
    sequenceInputLayer(1, Name="key-value")
    fullyConnectedLayer(numChannels,Name="fc-key")];

net = addLayers(net,layers);
net = connectLayers(net,"fc-key","attention/key");

net = addLayers(net, fullyConnectedLayer(numChannels,Name="fc-value"));
net = connectLayers(net,"key-value","fc-value");
net = connectLayers(net,"fc-value","attention/value");

ネットワークをプロットで表示します。

figure
plot(net)

Figure contains an axes object. The axes object contains an object of type graphplot.

アルゴリズム

すべて展開する

ドット積アテンション

attention 演算は、重み付き乗算を使用して入力の一部に焦点を当てます。

シングルヘッドのドット積 attention 演算は、次によって与えられます。

$attention (Q, K, V) = dropout (softmax (mask (λ Q K^{⊤}, M)), p) V,$

ここで、

Q はクエリを表します。
K はキーを表します。
V は値を表します。
$λ$ はスケーリング係数を示します。
M は 1 と 0 から成るマスク配列です。
p はドロップアウトの確率です。

マスク演算では、ゼロ値のマスク要素に対して入力の値を $- \infty$ に設定することにより、行列乗算の値を含める、または除外します。マスクは、パディングマスクとアテンションマスクの共用体です。ソフトマックス関数は、和が 1 となるように入力データの値をチャネル次元全体で正規化します。ドロップアウト演算は、確率 p で要素をゼロに設定します。

マルチヘッドドット積アテンション

マルチヘッドのドット積 attention 演算は、次によって与えられます。

$multiheadAttention (Q, K, V) = concatenate ({head}_{1}, \dots, {head}_{h}),$

ここで、

h はヘッドの数です。

各々の ${head}_{i}$ は、次で与えられるヘッド演算の出力を表します。

${head}_{i} = attention (Q_{i}, K_{i}, V_{i}) .$

層の入力形式と出力形式

層配列内または層グラフ内の層は、形式を整えた dlarray オブジェクトとして後続の層にデータを渡します。dlarray オブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、4 次元配列として表された 2 次元イメージデータがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージデータは "SSCB" (空間、空間、チャネル、バッチ) という形式で記述できます。

functionLayer オブジェクトを使用するか、関数 forward と関数 predict を dlnetwork オブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらの dlarray オブジェクトを操作できます。

次の表は、AttentionLayer オブジェクトでサポートされている入力形式、および対応する出力形式を示しています。ソフトウェアが nnet.layer.Formattable クラスを継承していないカスタム層、または Formattable プロパティが 0 (false) に設定された FunctionLayer オブジェクトに層の出力を渡す場合、その層は形式を整えていない dlarray オブジェクトを受け取り、この表に示された形式に従って次元が並べられます。ここには一部の形式のみを示します。層では、追加の "S" (空間) 次元または "U" (未指定) 次元をもつ形式など、追加の形式がサポートされている場合があります。

クエリ、キー、値の形式	出力形式	スコアの出力形式 (`HasScoresOutput` が `1` (`true`) である場合)
`"CB"` (channel、batch)	`"CB"` (channel、batch)	`"UUUU"` (unspecified、unspecified、unspecified、unspecified)
`"SCB"` (spatial、channel、batch)	`"SCB"` (spatial、channel、batch)	`"UUUU"` (unspecified、unspecified、unspecified、unspecified)
`"CBT"` (channel、batch、time)	`"CBT"` (channel、batch、time)	`"UUUU"` (unspecified、unspecified、unspecified、unspecified)
`"SC"` (spatial、channel)	`"SC"` (spatial、channel)	`"UUU"` (unspecified、unspecified、unspecified)
`"CT"` (channel、time)	`"CT"` (channel、time)	`"UUU"` (unspecified、unspecified、unspecified)
`"BT"` (batch、time)	`"CBT"` (channel、batch、time)	`"UUUU"` (unspecified、unspecified、unspecified、unspecified)
`"SB"` (spatial、batch)	`"SCB"` (spatial、channel、batch)	`"UUUU"` (unspecified、unspecified、unspecified、unspecified)

HasMaskInput が 1 (true) である場合、マスクはクエリ、キー、および値と同じ形式でなければなりません。

参照

[1] Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In Advances in Neural Information Processing Systems, Vol. 30. Curran Associates, Inc., 2017. https://papers.nips.cc/paper/7181-attention-is-all-you-need.

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

HasScoresOutput が true に設定されている場合、コード生成はサポートされません。
コード生成では、指定なし (U) の次元をもつ dlarray オブジェクトをこの層に渡すことはサポートされていません。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限については、「C/C++ コード生成」セクションを参照してください。GPU コード生成にも同じ制限が適用されます。

バージョン履歴

R2024a で導入

参考

attentionLayer

説明

作成

構文

説明

プロパティ

アテンション

NumHeads — ヘッドの数 正の整数

Scale — クエリとキーのドット積をスケーリングするための乗法係数 "auto" | 数値スカラー

HasPaddingMaskInput — 層にマスク入力があるかどうかを示すフラグ 0 (false) (既定値) | 1 (true)

HasScoresOutput — 層にスコア出力があるかどうかを示すフラグ 0 (false) (既定値) | 1 (true)

AttentionMask — アテンション マスク "none" (既定値) | "causal" | 数値配列 | logical 配列

DropoutProbability — アテンション スコアのドロップアウト確率 0 (既定値) | 範囲 [0, 1) のスカラー

層

Name — 層の名前 '' (既定値) | 文字ベクトル | string スカラー

NumInputs — 入力の数 3 (既定値) | 4

InputNames — 入力名 ["query" "key" "value"] (既定値) | ["query" "key" "value" "mask"]

NumOutputs — 出力の数 読み取り専用: 1 (既定値) | 2

OutputNames — 出力名 読み取り専用: "out" (既定値) | ["out" "scores"]

例

注意層の作成

クロスアテンション ニューラル ネットワークの作成

アルゴリズム

ドット積アテンション

マルチヘッド ドット積アテンション

層の入力形式と出力形式

参照

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

参考

トピック

`NumHeads` — ヘッドの数
正の整数

`Scale` — クエリとキーのドット積をスケーリングするための乗法係数
`"auto"` | 数値スカラー

`HasPaddingMaskInput` — 層にマスク入力があるかどうかを示すフラグ
`0` (`false`) (既定値) | `1` (`true`)

`HasScoresOutput` — 層にスコア出力があるかどうかを示すフラグ
`0` (`false`) (既定値) | `1` (`true`)

`AttentionMask` — アテンションマスク
`"none"` (既定値) | `"causal"` | 数値配列 | logical 配列

`DropoutProbability` — アテンションスコアのドロップアウト確率
`0` (既定値) | 範囲 [0, 1) のスカラー

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

`NumInputs` — 入力の数
`3` (既定値) | `4`

`InputNames` — 入力名
`["query" "key" "value"]` (既定値) | `["query" "key" "value" "mask"]`

`NumOutputs` — 出力の数
読み取り専用: `1` (既定値) | `2`

`OutputNames` — 出力名
読み取り専用: `"out"` (既定値) | `["out" "scores"]`

クロスアテンションニューラルネットワークの作成

マルチヘッドドット積アテンション

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。