attention

ドット積アテンション

R2022b 以降

ページ内をすべて折りたたむ

構文

Y = attention(queries,keys,values,numHeads)

[Y,weights] = attention(queries,keys,values,numHeads)

[Y,weights] = attention(queries,keys,values,numHeads,DataFormat=FMT)

[Y,weights] = attention(queries,keys,values,numHeads,Name=Value)

説明

attention 演算は、重み付き乗算を使用して入力の一部に焦点を当てます。

Y = attention(queries,keys,values,numHeads) は、アテンションヘッド数 numHeads を使用して、指定されたクエリ、キー、および値にドット積アテンション演算を適用します。クエリの入力引数は形式を整えた dlarray オブジェクトでなければなりません。

[Y,weights] = attention(queries,keys,values,numHeads) は、ドット積アテンション演算を適用し、アテンションの重みも返します。

例

[Y,weights] = attention(queries,keys,values,numHeads,DataFormat=FMT) は、形式を整えていない dlarray オブジェクト queries に対し、FMT で指定された形式でドット積アテンション演算を適用します。たとえば、DataFormat="CBT" は、データを "CBT" (チャネル、バッチ、時間) の形式で指定します。

例

[Y,weights] = attention(queries,keys,values,numHeads,Name=Value) は、1 つ以上の名前と値の引数を使用して追加オプションを指定します。たとえば、DropoutProbability=0.01 は、ドロップアウト確率を 0.01 に指定します。

例

すべて折りたたむ

アテンション演算の適用

ライブスクリプトを開く

クエリ、キー、および値のサイズを指定します。

querySize = 100;
valueSize = 120;
numQueries = 64;
numValues = 80;
numObservations = 32;

クエリ、キー、および値を含むランダム配列を作成します。クエリには、dlarray の形式である "CBT" (チャネル、バッチ、時間) を指定します。

queries = dlarray(rand(querySize,numObservations, numQueries),"CBT");
keys = dlarray(rand(querySize,numObservations, numValues));
values = dlarray(rand(valueSize,numObservations, numValues));

アテンションヘッド数を指定します。

numHeads = 5;

アテンション演算を適用します。

[Y,weights] = attention(queries,keys,values,numHeads);

出力のサイズと形式を表示します。

size(Y)

ans = 1×3

   120    32    64

dims(Y)

ans = 
'CBT'

重みのサイズと形式を表示します。

size(weights)

ans = 1×4

    80    64     5    32

dims(weights)

ans =

  0×0 empty char array

マルチヘッドセルフアテンション関数の作成

ライブスクリプトを開く

attention 関数を使用すると、入力の一部に焦点を当てたマルチヘッドセルフアテンション演算 [1] を実装できます。

この例のマルチヘッドセルフアテンション関数のセクションにリストされている関数 multiheadSelfAttention を作成します。multiheadSelfAttention 関数は、データ X、ヘッドの数、およびクエリ、キー、値、出力データに関する学習可能な重みを入力として受け取り、マルチヘッドアテンションの値を返します。

入力 X は形式を整えていない dlarray オブジェクトでなければなりません。最初の次元は入力チャネルに対応し、2 番目の次元は時間次元または空間次元に対応し、3 番目の次元はバッチ次元に対応します。

シーケンスデータの配列を作成します。

numChannels = 10;
numObservations = 128;
numTimeSteps = 100;

X = rand(numChannels,numObservations,numTimeSteps);
X = dlarray(X);
size(X)

ans = 1×3

    10   128   100

マルチヘッドアテンションのヘッド数を指定します。

numHeads = 8;

マルチヘッドアテンションの学習可能なパラメーターを初期化します。

クエリ、キー、および値に関する学習可能な重みは、(numChannels*numHeads) 行 numChannels 列の配列でなければなりません。
出力に関する学習可能な重みは、(numChannels*numHeads) 行 (numChannels*numHeads) 列の配列でなければなりません。

outputSize = numChannels*numHeads;

WQ = rand(outputSize,numChannels);
WK = rand(outputSize,numChannels);
WV = rand(outputSize,numChannels);
WO = rand(outputSize,outputSize);

マルチヘッドセルフアテンション演算を適用します。

Y = multiheadSelfAttention(X,numHeads,WQ,WK,WV,WO);

出力のサイズを表示します。出力のサイズは、(numChannels*numHeads)×numObservations×(numTimeSteps) になります。

size(Y)

ans = 1×3

    80   128   100

マルチヘッドセルフアテンション関数

multiheadSelfAttention 関数は、データ X、ヘッドの数、およびクエリ、キー、値、出力データに関する学習可能な重みを入力として受け取り、マルチヘッドアテンションの値を返します。

入力 X は形式を整えていない dlarray オブジェクトでなければなりません。最初の次元は入力チャネルに対応し、2 番目の次元は時間次元または空間次元に対応し、3 番目の次元はバッチ次元に対応します。
クエリ、キー、および値に関する学習可能な重み行列は、(numChannels*numHeads) 行 numChannels 列の行列でなければなりません。
出力に関する学習可能な重み行列は、(numChannels*numHeads) 行 (numChannels*numHeads) 列の行列でなければなりません。

function Y = multiheadSelfAttention(X,numHeads,WQ,WK,WV,WO)

queries = pagemtimes(WQ,X);
keys = pagemtimes(WK,X);
values = pagemtimes(WV,X);

A = attention(queries,keys,values,numHeads,DataFormat="CBT");

Y = pagemtimes(WO,A);

end

Luong アテンション関数の作成

ライブスクリプトを開く

attention 関数を使用すると、入力に Luong アテンション演算を適用する関数を作成できます。Luong アテンション演算を適用する luongAttention 関数を作成します。この関数は例の最後にリストされています。

配列のサイズを指定します。

numHiddenUnits = 100;
latentSize = 16;

入力データを含むランダム配列を作成します。

hiddenState = dlarray(rand(numHiddenUnits,1));
Z = dlarray(rand(latentSize,1));
weights = dlarray(rand(numHiddenUnits,latentSize));

luongAttention 関数を適用します。

[context,scores] = luongAttention(hiddenState,Z,weights);

出力のサイズを表示します。

size(context)

ans = 1×2

    16     1

size(scores)

ans = 1×2

     1     1

Luong アテンション関数

luongAttention 関数は、Luong の "一般的な" スコアリング [2] に従って、コンテキストベクトルとアテンションスコアを返します。この演算は、ドット積アテンションでクエリ、キー、および値に隠れ状態、重み付き潜在表現、および潜在表現をそれぞれ指定することと等価です。

function [context,scores] = luongAttention(hiddenState,Z,weights)

numHeads = 1;
queries = hiddenState;
keys = pagemtimes(weights,Z);
values = Z;

[context,scores] = attention(queries,keys,values,numHeads, ...
    Scale=1, ...
    DataFormat="CBT");

end

入力引数

すべて折りたたむ

`queries` — クエリ
`dlarray` オブジェクト

クエリ。dlarray オブジェクトとして指定します。

queries には、最大 1 つの "S" (空間) 次元または "T" (時間) 次元を含めることができます。"U" (指定なし) というラベルが付いた queries 内のすべての次元はシングルトンでなければなりません。queries が、形式を整えていない dlarray オブジェクトである場合、DataFormat オプションを使用してデータ形式を指定します。

keys の "C" (チャネル) 次元のサイズは、queries の対応する次元のサイズと一致しなければなりません。

queries、keys、および values の "B" (バッチ) 次元のサイズは一致しなければなりません。

`keys` — キー
`dlarray` オブジェクト | 数値配列

キー。dlarray オブジェクトまたは数値配列として指定します。

keys が、形式を整えた dlarray オブジェクトである場合、その形式は queries の形式と一致しなければなりません。keys が、形式を整えた dlarray オブジェクトでない場合、この関数は queries と同じ形式を使用します。

keys の "S" (空間) 次元または "T" (時間) 次元のサイズは、values の対応する次元のサイズと一致しなければなりません。

keys の "C" (チャネル) 次元のサイズは、queries の対応する次元のサイズと一致しなければなりません。

queries、keys、および values の "B" (バッチ) 次元のサイズは一致しなければなりません。

`values` — 値
`dlarray` オブジェクト | 数値配列

値。dlarray オブジェクトまたは数値配列として指定します。

values が、形式を整えた dlarray オブジェクトである場合、その形式は queries の形式と一致しなければなりません。そうでない場合、この関数は queries と同じ形式を使用します。

keys の "S" (空間) 次元または "T" (時間) 次元のサイズは、values の対応する次元のサイズと一致しなければなりません。

queries、keys、および values の "B" (バッチ) 次元のサイズは一致しなければなりません。

`numHeads` — ヘッドの数
正の整数

ヘッドの数。正の整数として指定します。

各ヘッドは入力に対して個別の線形変換を実行し、アテンションの重みを独立して計算します。層はこれらのアテンション重みを使用して入力表現の重み付き和を計算し、コンテキストベクトルを生成します。ヘッドの数を増やすと、モデルはさまざまな種類の依存関係を捉え、入力のさまざまな部分に同時に注意を向けることができるようになります。ヘッドの数を減らすと、層の計算コストを削減できます。

numHeads の値は、queries、keys、および values の "C" (チャネル) 次元のサイズを均等に分割しなければなりません。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、コンマを使用して名前と値をそれぞれ区切り、Name を引用符で囲みます。

例: attention(queries,keys,values,numHeads,DataFormat="CBT") は、形式を整えていないデータに対してアテンション演算を適用し、データ形式 "CBT" (チャネル、バッチ、時間) を指定します。

`DataFormat` — データの次元の説明
文字ベクトル | string スカラー

データの次元の説明。文字ベクトルまたは string スカラーとして指定します。

データ形式は文字列で、各文字は対応するデータ次元のタイプを表します。

各文字は以下のとおりです。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、シーケンスのバッチを表し、1 番目、2 番目、および 3 番目の次元がそれぞれチャネル、観測値、およびタイムステップに対応する配列があるとします。データは "CBT" (チャネル、バッチ、時間) の形式で記述できます。

"S" または "U" のラベルが付いた次元については、複数回指定できます。ラベル "C"、"B"、および "T" はそれぞれ 1 回まで使用できます。ソフトウェアは、2 番目の次元の後ろにある大きさが 1 の "U" 次元を無視します。

入力データが、形式を整えた dlarray オブジェクトでない場合は、DataFormat オプションを指定しなければなりません。

詳細については、深層学習のデータ形式を参照してください。

データ型: char | string

`Scale` — スケーリングされたドット積アテンションの乗法係数
`"auto"` (既定値) | 数値スカラー

スケーリングされたドット積アテンションの乗法係数[1]。次のいずれかの値として指定します。

"auto" — ドット積を $λ = \frac{1}{\sqrt{d_{k}}}$ で乗算します。ここで、d_k はキーのチャネル数をヘッドの数で割った値を表します。
数値スカラー — 指定されたスケール係数でドット積を乗算します。

データ型: single | double | char | string

`PaddingMask` — パディング値を示すマスク
`dlarray` オブジェクト | logical 配列 | バイナリ値の数値配列

入力のどの要素がパディング値に対応するかを示すマスク。dlarray オブジェクト、logical 配列、またはバイナリ値の数値配列として指定します。

この関数は、PaddingMask 内の対応する要素がそれぞれ 0 と 1 である場合に、入力データのキーと値のペアの要素へのアテンションを禁止および許可します。

PaddingMask が、形式を整えた dlarray オブジェクトである場合、その形式は keys の形式と一致しなければなりません。PaddingMask が、形式を整えた dlarray オブジェクトでない場合、この関数は keys と同じ形式を使用します。PaddingMask の "S" (空間)、"T" (時間)、および "B" (バッチ) の各次元のサイズは、keys および values の対応する次元のサイズと一致しなければなりません。

パディングマスクには任意の数のチャネルを含めることができます。ソフトウェアは、最初のチャネルの値をパディング値の表示にのみ使用します。

既定値は、keys と同じサイズの 1 から成る logical 配列です。

`AttentionMask` — アテンションマスク
`"none"` (既定値) | `"causal"` | 数値配列 | logical 配列

attention 演算を適用するときに含める要素を示すアテンションマスク。次のいずれかの値として指定します。

"none" — 位置に関係なく、要素に注意を払うことを抑制しません。AttentionMask が "none" である場合、ソフトウェアはパディングマスクのみを使用して注意を抑制します。
"causal" — 入力されたクエリの "S" (空間) または "T" (時間) 次元の位置 m にある要素が、入力されたキーと値の対応する次元において、位置 n (n は m より大きい) にある要素に注意を払うことを抑制します。このオプションは自己回帰モデルに使用します。
論理配列または数値配列 — 指定された配列内の対応する要素が 0 である場合、入力されたキーと値の要素に注意を払うことを抑制します。指定された配列は、N_k 行 N_q 列の行列、または N_k×N_q×numObservations の配列でなければなりません。N_k は入力されたキーの "S" (空間) 次元または "T" (時間) 次元のサイズ、N_q は入力されたクエリの対応する次元のサイズ、numObservations は入力されたクエリの "B" 次元のサイズです。

`DropoutProbability` — ドロップアウトの確率
`0` (既定値) | 範囲 [0, 1) のスカラー

アテンションの重みのドロップアウトの確率。範囲 [0, 1) のスカラーとして指定します。

データ型: single | double

出力引数

すべて折りたたむ

`Y` — アテンション演算の結果
`dlarray` オブジェクト

アテンション演算の結果。dlarray オブジェクトとして返されます。

queries が、形式を整えた dlarray オブジェクトである場合、Y は、queries と同じ次元ラベルをもつ形式を整えた dlarray オブジェクトになります。Y の "C" (チャネル) 次元のサイズは、values の対応する次元のサイズと同じです。Y の "S" (空間) 次元または "T" 次元のサイズは、queries の対応する次元のサイズと同じです。

queries が、形式を整えた dlarray オブジェクトでない場合、Y は、形式を整えていない dlarray オブジェクトになります。

`weights` — アテンションの重み
形式を整えていない `dlarray` オブジェクト

アテンションの重み。形式を整えていない dlarray オブジェクトとして返されます。

weights は、N_k×N_q×numHeads×numObservations の配列です。ここで、N_k は keys の "S" (空間) 次元または "T" (時間) 次元のサイズ、N_q は queries 内の対応する次元のサイズ、numObservations は queries 内の "B" (バッチ) 次元のサイズです。

アルゴリズム

すべて折りたたむ

ドット積アテンション

attention 演算は、重み付き乗算を使用して入力の一部に焦点を当てます。

シングルヘッドのドット積 attention 演算は、次によって与えられます。

$attention (Q, K, V) = dropout (softmax (mask (λ Q K^{⊤}, M)), p) V,$

ここで、

Q はクエリを表します。
K はキーを表します。
V は値を表します。
$λ$ はスケーリング係数を示します。
M は 1 と 0 から成るマスク配列です。
p はドロップアウトの確率です。

マスク演算では、ゼロ値のマスク要素に対して入力の値を $- \infty$ に設定することにより、行列乗算の値を含める、または除外します。マスクは、パディングマスクとアテンションマスクの共用体です。ソフトマックス関数は、和が 1 となるように入力データの値をチャネル次元全体で正規化します。ドロップアウト演算は、確率 p で要素をゼロに設定します。

マルチヘッドの自己注意

入力 X に対するマルチヘッドの自己注意演算は、次で与えられます。

$multiheadSelfAttention (X, h, W^{Q}, W^{K}, W^{V}, W^{O}) = concatenate ({head}_{1}, \dots, {head}_{h}) W^{O},$

ここで、

h はヘッドの数です。
W^Q はクエリの学習可能なパラメーターの射影行列です。
W^K はキーの学習可能なパラメーターの射影行列です。
W^V は値の学習可能なパラメーターの射影行列です。
W^O は出力の学習可能なパラメーターの射影行列です。

各重み行列は、各ヘッドの連結された重み行列 W_i で構成されます。各々の ${head}_{i}$ は、次で与えられるヘッド演算の出力を表します。

${head}_{i} = selfAttention (X W_{i}^{Q}, X W_{i}^{K}, X W_{i}^{V}) .$

深層学習配列の形式

深層学習のほとんどのネットワークと関数は、入力データの各次元に対して異なる方法で演算を行います。

たとえば、LSTM 演算は入力データの時間次元を反復処理し、バッチ正規化演算は入力データのバッチ次元を正規化します。

ラベルが付いた次元をもつ入力データ、または追加のレイアウト情報をもつ入力データを指定するには、"データ形式" を使用します。

データ形式は文字列で、各文字は対応するデータ次元のタイプを表します。

各文字は以下のとおりです。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

形式を整えた入力データを作成するには、dlarray オブジェクトを作成し、2 番目の引数を使用して形式を指定します。

形式を整えていないデータを使用して追加のレイアウト情報を指定するには、引数 DataFormat を使用して形式を指定します。

詳細については、深層学習のデータ形式を参照してください。

参照

[1] Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." Advances in neural information processing systems 30 (December 2017): 6000-6010. https://papers.nips.cc/paper/7181-attention-is-all-you-need.

[2] Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. "Effective approaches to attention-based neural machine translation." arXiv preprint arXiv:1508.04025 (2015).

拡張機能

すべて展開する

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

attention 関数は GPU 配列入力をサポートしますが、次の使用上の注意および制限があります。

以下の入力引数の少なくとも 1 つが、gpuArray オブジェクトまたは基となるデータが gpuArray 型である dlarray オブジェクトである場合、この関数は GPU で実行されます。
- queries
- keys
- values

詳細については、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2022b で導入

参考

attention

構文

説明

例

アテンション演算の適用

マルチヘッド セルフ アテンション関数の作成

Luong アテンション関数の作成

入力引数

queries — クエリ dlarray オブジェクト

keys — キー dlarray オブジェクト | 数値配列

values — 値 dlarray オブジェクト | 数値配列

numHeads — ヘッドの数 正の整数

名前と値の引数

DataFormat — データの次元の説明 文字ベクトル | string スカラー

Scale — スケーリングされたドット積アテンションの乗法係数 "auto" (既定値) | 数値スカラー

PaddingMask — パディング値を示すマスク dlarray オブジェクト | logical 配列 | バイナリ値の数値配列

AttentionMask — アテンション マスク "none" (既定値) | "causal" | 数値配列 | logical 配列

DropoutProbability — ドロップアウトの確率 0 (既定値) | 範囲 [0, 1) のスカラー

出力引数

Y — アテンション演算の結果 dlarray オブジェクト

weights — アテンションの重み 形式を整えていない dlarray オブジェクト

アルゴリズム

ドット積アテンション

マルチヘッドの自己注意

深層学習配列の形式

参照

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

参考

トピック

マルチヘッドセルフアテンション関数の作成

`queries` — クエリ
`dlarray` オブジェクト

`keys` — キー
`dlarray` オブジェクト | 数値配列

`values` — 値
`dlarray` オブジェクト | 数値配列

`numHeads` — ヘッドの数
正の整数

`DataFormat` — データの次元の説明
文字ベクトル | string スカラー

`Scale` — スケーリングされたドット積アテンションの乗法係数
`"auto"` (既定値) | 数値スカラー

`PaddingMask` — パディング値を示すマスク
`dlarray` オブジェクト | logical 配列 | バイナリ値の数値配列

`AttentionMask` — アテンションマスク
`"none"` (既定値) | `"causal"` | 数値配列 | logical 配列

`DropoutProbability` — ドロップアウトの確率
`0` (既定値) | 範囲 [0, 1) のスカラー

`Y` — アテンション演算の結果
`dlarray` オブジェクト

`weights` — アテンションの重み
形式を整えていない `dlarray` オブジェクト

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。