gruLayer
説明
GRU 層は、時系列データおよびシーケンス データのタイム ステップ間の依存関係を学習する RNN 層です。
作成
説明
は、GRU 層を作成し、layer
= gruLayer(numHiddenUnits
)NumHiddenUnits
プロパティを設定します。
は、1 つ以上の名前と値のペアの引数を使用して、追加の layer
= gruLayer(numHiddenUnits
,Name,Value
)OutputMode
、活性化、状態、パラメーターと初期化、学習率および正則化、および Name
の各プロパティを設定します。複数の名前と値のペアの引数を指定できます。各プロパティ名を引用符で囲みます。
プロパティ
GRU
NumHiddenUnits
— 隠れユニットの数
正の整数
隠れユニットの数 (隠れサイズとも呼ばれる)。正の整数として指定します。
隠れユニットの数は、タイム ステップ間に層によって記憶された情報 (隠れ状態) の量に相当します。隠れ状態には、シーケンス長に関係なく、以前のすべてのタイム ステップからの情報を含めることができます。隠れユニットの数が大きすぎる場合、層が学習データに対して過適合する可能性があります。
隠れ状態によって、1 回の反復の間に層で処理されるタイム ステップ数が制限されることはありません。関数 trainnet
および trainNetwork
を使用するときにシーケンスをより小さなシーケンスに分割するには、SequenceLength
学習オプションを使用します。
この層は、NumHiddenUnits
個のチャネルをもつデータを出力します。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
OutputMode
— 出力モード
"sequence"
(既定値) | "last"
出力モード。次のいずれかの値として指定します。
"sequence"
— シーケンス全体を出力します。"last"
— シーケンスの最後のタイム ステップを出力します。
GRULayer
オブジェクトは、このプロパティを文字ベクトルとして格納します。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
HasStateInputs
— 層への状態入力のフラグ
0
(false
) (既定値) | 1
(true
)
層への状態入力のフラグ。0
(false
) または 1
(true
) として指定します。
HasStateInputs
プロパティが 0
(false
) の場合、層は、入力データに対応する "in"
という名前の 1 つの入力をもちます。この場合、層は HiddenState
プロパティを使用して層処理を行います。
HasStateInputs
プロパティが 1
(true
) の場合、層は、それぞれ入力データおよび隠れ状態に対応する "in"
および "hidden"
という名前の 2 つの入力をもちます。この場合、層は、ネットワークによってこれらの入力に渡された値を使用して層処理を行います。HasStateInputs
が 1
(true
) の場合、HiddenState
プロパティは空でなければなりません。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
HasStateOutputs
— 層からの状態出力のフラグ
0
(false
) (既定値) | 1
(true
)
層からの状態出力のフラグ。0
(false
) または 1
(true
) として指定します。
HasStateOutputs
プロパティが 0
(false
) の場合、層は、出力データに対応する "out"
という名前の 1 つの出力をもちます。
HasStateOutputs
プロパティが 1
(true
) の場合、層は、それぞれ出力データおよび隠れ状態に対応する "out"
および "hidden"
という名前の 2 つの出力をもちます。この場合、層は、層処理中に計算された状態値も出力します。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
ResetGateMode
— リセット ゲート モード
"after-multiplication"
(既定値) | "before-multiplication"
| "recurrent-bias-after-multiplication"
リセット ゲート モード。次のいずれかの値として指定します。
"after-multiplication"
— 行列乗算後にリセット ゲートを適用します。このオプションは cuDNN に対応しています。"before-multiplication"
— 行列乗算前にリセット ゲートを適用します。"recurrent-bias-after-multiplication"
— 行列乗算後にリセット ゲートを適用し、さらに、再帰重みに関する一連のバイアス項を使用します。
リセット ゲートの計算に関する詳細については、ゲート付き回帰型ユニット層を参照してください。
R2023a より前: dlnetwork
オブジェクトは、ResetGateMode
が "after-multiplication"
に設定されている GRU 層のみをサポートします。
InputSize
— 入力サイズ
"auto"
(既定値) | 正の整数
この プロパティ は読み取り専用です。
入力サイズ。正の整数または "auto"
として指定します。InputSize
が "auto"
の場合、学習時に入力サイズが自動的に割り当てられます。
InputSize
が "auto"
の場合、GRULayer
オブジェクトは、このプロパティを文字ベクトルとして格納します。
データ型: double
| char
| string
活性化
StateActivationFunction
— 隠れ状態を更新する活性化関数
"tanh"
(既定値) | "softsign"
隠れ状態を更新する活性化関数。次のいずれかの値として指定します。
"tanh"
— 双曲線正接関数 (tanh) を使用します。"softsign"
— ソフトサイン関数 を使用します。
層は、隠れ状態を更新する計算における関数 としてこのオプションを使用します。
GRULayer
オブジェクトは、このプロパティを文字ベクトルとして格納します。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
GateActivationFunction
— ゲートに適用する活性化関数
"sigmoid"
(既定値) | "hard-sigmoid"
ゲートに適用する活性化関数。次のいずれかの値として指定します。
"sigmoid"
— シグモイド関数 を使用します。"hard-sigmoid"
— ハード シグモイド関数を使用します。
層は、層のゲートの計算における関数 としてこのオプションを使用します。
GRULayer
オブジェクトは、このプロパティを文字ベクトルとして格納します。
GRULayer
オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer
オブジェクトの作成後、このプロパティは読み取り専用になります。
状態
HiddenState
— 隠れ状態
[]
(既定値) | 数値ベクトル
層処理で使用される隠れ状態。NumHiddenUnits
行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときの隠れ状態の初期値に対応します。
このプロパティを手動で設定した後に関数 resetState
を呼び出すと、隠れ状態がこの値に設定されます。
HasStateInputs
が 1
(true
) の場合、HiddenState
プロパティは空でなければなりません。
データ型: single
| double
パラメーターと初期化
InputWeightsInitializer
— 入力の重みを初期化する関数
"glorot"
(既定値) | "he"
| "orthogonal"
| "narrow-normal"
| "zeros"
| "ones"
| 関数ハンドル
入力の重みを初期化する関数。次のいずれかに指定します。
"glorot"
— Glorot 初期化子[2] (Xavier 初期化子とも呼ばれる) を使用して入力の重みを初期化します。Glorot 初期化子は、平均 0、分散2/(InputSize + numOut)
の一様分布から個別にサンプリングを行います。ここで、numOut = 3*NumHiddenUnits
です。"he"
— He 初期化子[3]を使用して入力の重みを初期化します。He 初期化子は、平均 0、分散2/InputSize
の正規分布からサンプリングを行います。"orthogonal"
— 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[4]"narrow-normal"
— 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、入力の重みを初期化します。"zeros"
— 0 で入力の重みを初期化します。"ones"
— 1 で入力の重みを初期化します。関数ハンドル — カスタム関数で入力の重みを初期化します。関数ハンドルを指定する場合、関数は
weights = func(sz)
という形式でなければなりません。ここで、sz
は入力の重みのサイズです。
この層では、InputWeights
プロパティが空の場合にのみ入力の重みが初期化されます。
GRULayer
オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。
データ型: char
| string
| function_handle
RecurrentWeightsInitializer
— 再帰重みを初期化する関数
"orthogonal"
(既定値) | "glorot"
| "he"
| "narrow-normal"
| "zeros"
| "ones"
| 関数ハンドル
再帰重みを初期化する関数。次のいずれかに指定します。
"orthogonal"
— 直交行列 Q を使用して再帰重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[4]"glorot"
— Glorot 初期化子[2] (Xavier 初期化子とも呼ばれる) を使用して再帰重みを初期化します。Glorot 初期化子は、平均 0、分散2/(numIn + numOut)
の一様分布から個別にサンプリングを行います。ここで、numIn = NumHiddenUnits
およびnumOut = 3*NumHiddenUnits
です。"he"
— He 初期化子[3]を使用して再帰重みを初期化します。He 初期化子は、平均 0、分散2/NumHiddenUnits
の正規分布からサンプリングを行います。"narrow-normal"
— 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、再帰重みを初期化します。"zeros"
— 0 で再帰重みを初期化します。"ones"
— 1 で再帰重みを初期化します。関数ハンドル — カスタム関数で再帰重みを初期化します。関数ハンドルを指定する場合、関数は
weights = func(sz)
という形式でなければなりません。ここで、sz
は再帰重みのサイズです。
この層では、RecurrentWeights
プロパティが空の場合にのみ再帰重みが初期化されます。
GRULayer
オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。
データ型: char
| string
| function_handle
BiasInitializer
— バイアスを初期化する関数
"zeros"
(既定値) | "narrow-normal"
| "ones"
| 関数ハンドル
バイアスを初期化する関数。次のいずれかの値として指定します。
"zeros"
— 0 でバイアスを初期化します。"narrow-normal"
— 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、バイアスを初期化します。"ones"
— 1 でバイアスを初期化します。関数ハンドル — カスタム関数でバイアスを初期化します。関数ハンドルを指定する場合、関数は
bias = func(sz)
という形式でなければなりません。ここで、sz
はバイアスのサイズです。
この層では、Bias
プロパティが空の場合にのみバイアスが初期化されます。
GRULayer
オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。
データ型: char
| string
| function_handle
InputWeights
— 入力重み
[]
(既定値) | 行列
入力の重み。行列として指定します。
この入力重み行列は、GRU 層にあるコンポーネントの 3 つの入力重み行列の連結です。3 つの行列は、以下の順で垂直に連結されています。
リセット ゲート
更新ゲート
候補状態
入力の重みは学習可能なパラメーターです。関数 trainnet
または trainNetwork
によってニューラル ネットワークに学習させる際、InputWeights
が空ではない場合、ソフトウェアは InputWeights
プロパティを初期値として使用します。InputWeights
が空の場合、InputWeightsInitializer
によって指定された初期化子が使用されます。
学習時、InputWeights
は 3*NumHiddenUnits
行 InputSize
列の行列です。
RecurrentWeights
— 再帰重み
[]
(既定値) | 行列
再帰重み。行列として指定します。
この再帰重み行列は、GRU 層にあるコンポーネントの 3 つの再帰重み行列の連結です。3 つの行列は、以下の順で垂直に連結されています。
リセット ゲート
更新ゲート
候補状態
再帰重みは学習可能なパラメーターです。関数 trainnet
または trainNetwork
によって RNN に学習させる際、RecurrentWeights
が空ではない場合、ソフトウェアは RecurrentWeights
プロパティを初期値として使用します。RecurrentWeights
が空の場合、RecurrentWeightsInitializer
によって指定された初期化子が使用されます。
学習時、RecurrentWeights
は 3*NumHiddenUnits
行 NumHiddenUnits
列の行列です。
Bias
— 層のバイアス
[]
(既定値) | 数値ベクトル
層のバイアス。数値ベクトルとして指定します。
ResetGateMode
が "after-multiplication"
または "before-multiplication"
の場合、このバイアス ベクトルは、層処理に含まれるコンポーネントの 3 つのバイアス ベクトルの連結です。この層は、これらのベクトルを次の順序で垂直に連結します。
リセット ゲート
更新ゲート
候補状態
この場合、学習時、Bias
は 3*NumHiddenUnits
行 1 列の数値ベクトルです。
ResetGateMode
が "recurrent-bias-after-multiplication"
の場合、このバイアス ベクトルは、GRU 層にあるコンポーネントの 6 つのバイアス ベクトルの連結です。この層は、これらのベクトルを次の順序で垂直に連結します。
リセット ゲート
更新ゲート
候補状態
リセット ゲート (再帰バイアス)
更新ゲート (再帰バイアス)
候補状態 (再帰バイアス)
この場合、学習時、Bias
は 6*NumHiddenUnits
行 1 列の数値ベクトルです。
層のバイアスは学習可能なパラメーターです。ニューラル ネットワークの学習時に、Bias
が空ではない場合、関数 trainnet
および trainNetwork
は Bias
プロパティを初期値として使用します。Bias
が空の場合、ソフトウェアは BiasInitializer
によって指定された初期化子を使用します。
リセット ゲートの計算に関する詳細については、ゲート付き回帰型ユニット層を参照してください。
学習率および正則化
InputWeightsLearnRateFactor
— 入力の重みの学習率係数
1
(既定値) | 数値スカラー | 1 行 3 列の数値ベクトル
入力の重みの学習率係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル学習率が乗算されて、層の入力の重みの学習率係数が決定されます。たとえば、InputWeightsLearnRateFactor
が 2
の場合、層の入力の重みの学習率係数は現在のグローバル学習率の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、グローバル学習率が決定されます。
InputWeights
に含まれる 3 つの個々の行列について学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。InputWeightsLearnRateFactor
のエントリは、以下の値の学習率係数に対応します。
リセット ゲート
更新ゲート
候補状態
すべての行列に同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
RecurrentWeightsLearnRateFactor
— 再帰重みの学習率係数
1
(既定値) | 数値スカラー | 1 行 3 列の数値ベクトル
再帰重みの学習率係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル学習率が乗算されて、層の再帰重みの学習率が決定されます。たとえば、RecurrentWeightsLearnRateFactor
が 2
の場合、層の再帰重みの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、グローバル学習率が決定されます。
RecurrentWeights
に含まれる 3 つの個々の行列について学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。RecurrentWeightsLearnRateFactor
のエントリは、以下の値の学習率係数に対応します。
リセット ゲート
更新ゲート
候補状態
すべての行列に同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
BiasLearnRateFactor
— バイアスの学習率係数
1
(既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル
バイアスの学習率係数。非負のスカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル学習率が乗算されて、この層のバイアスの学習率が決定されます。たとえば、BiasLearnRateFactor
が 2
の場合、層のバイアスの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、グローバル学習率が決定されます。
Bias
に含まれる 3 つの個々のベクトルについて学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。BiasLearnRateFactor
のエントリは、以下の値の学習率係数に対応します。
リセット ゲート
更新ゲート
候補状態
ResetGateMode
が "recurrent-bias-after-multiplication"
の場合、ソフトウェアは再帰バイアス ベクトルについても同じベクトルを使用します。
すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
InputWeightsL2Factor
— 入力の重みの L2 正則化係数
1
(既定値) | 数値スカラー | 1 行 3 列の数値ベクトル
入力の重みの L2 正則化係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル L2 正則化係数が乗算されて、層の入力の重みの L2 正則化係数が決定されます。たとえば、InputWeightsL2Factor
が 2
の場合、層の入力の重みの L2 正則化係数は現在のグローバル L2 正則化係数の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、L2 正則化係数が決定されます。
InputWeights
に含まれる 3 つの個々の行列の L2 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。InputWeightsL2Factor
のエントリは、以下の値の L2 正則化係数に対応します。
リセット ゲート
更新ゲート
候補状態
すべての行列に同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
RecurrentWeightsL2Factor
— 再帰重みの L2 正則化係数
1
(既定値) | 数値スカラー | 1 行 3 列の数値ベクトル
再帰重みの L2 正則化係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル L2 正則化係数が乗算されて、層の再帰重みの L2 正則化係数が決定されます。たとえば、RecurrentWeightsL2Factor
が 2
の場合、層の再帰重みの L2 正則化係数は現在のグローバル L2 正則化係数の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、L2 正則化係数が決定されます。
RecurrentWeights
に含まれる 3 つの個々の行列の L2 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。RecurrentWeightsL2Factor
のエントリは、以下の値の L2 正則化係数に対応します。
リセット ゲート
更新ゲート
候補状態
すべての行列に同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
BiasL2Factor
— バイアスの L2 正則化係数
0
(既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル
バイアスの L2 正則化係数。非負のスカラーまたは 1 行 3 列の数値ベクトルとして指定します。
この係数にグローバル L2 正則化係数が乗算されて、この層のバイアスの L2 正則化が決定されます。たとえば、BiasL2Factor
が 2
の場合、この層のバイアスの L2 正則化はグローバル L2 正則化係数の 2 倍になります。関数 trainingOptions
で指定した設定に基づいて、グローバル L2 正則化係数が決定されます。
Bias
に含まれる個々のベクトルの L2 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。BiasL2Factor
のエントリは、以下の値の L2 正則化係数に対応します。
リセット ゲート
更新ゲート
候補状態
ResetGateMode
が "recurrent-bias-after-multiplication"
の場合、ソフトウェアは再帰バイアス ベクトルについても同じベクトルを使用します。
すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。
例: 2
例: [1 2 1]
層
Name
— 層の名前
""
(既定値) | 文字ベクトル | string スカラー
層の名前。文字ベクトルまたは string スカラーとして指定します。Layer
配列入力の場合、関数 trainnet
、trainNetwork
、assembleNetwork
、layerGraph
、および dlnetwork
は、名前が ""
の層に自動的に名前を割り当てます。
GRULayer
オブジェクトは、このプロパティを文字ベクトルとして格納します。
データ型: char
| string
NumInputs
— 入力の数
1
| 2
この プロパティ は読み取り専用です。
層への入力の数。
HasStateInputs
プロパティが 0
(false
) の場合、層は、入力データに対応する "in"
という名前の 1 つの入力をもちます。この場合、層は HiddenState
プロパティを使用して層処理を行います。
HasStateInputs
プロパティが 1
(true
) の場合、層は、それぞれ入力データおよび隠れ状態に対応する "in"
および "hidden"
という名前の 2 つの入力をもちます。この場合、層は、ネットワークによってこれらの入力に渡された値を使用して層処理を行います。HasStateInputs
が 1
(true
) の場合、HiddenState
プロパティは空でなければなりません。
データ型: double
InputNames
— 層の入力名
"in"
| ["in" "hidden"]
この プロパティ は読み取り専用です。
層の入力名。
HasStateInputs
プロパティが 0
(false
) の場合、層は、入力データに対応する "in"
という名前の 1 つの入力をもちます。この場合、層は HiddenState
プロパティを使用して層処理を行います。
HasStateInputs
プロパティが 1
(true
) の場合、層は、それぞれ入力データおよび隠れ状態に対応する "in"
および "hidden"
という名前の 2 つの入力をもちます。この場合、層は、ネットワークによってこれらの入力に渡された値を使用して層処理を行います。HasStateInputs
が 1
(true
) の場合、HiddenState
プロパティは空でなければなりません。
GRULayer
オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。
NumOutputs
— 出力の数
1
| 2
この プロパティ は読み取り専用です。
層からの出力の数。
HasStateOutputs
プロパティが 0
(false
) の場合、層は、出力データに対応する "out"
という名前の 1 つの出力をもちます。
HasStateOutputs
プロパティが 1
(true
) の場合、層は、それぞれ出力データおよび隠れ状態に対応する "out"
および "hidden"
という名前の 2 つの出力をもちます。この場合、層は、層処理中に計算された状態値も出力します。
データ型: double
OutputNames
— 層の出力名
"out"
| ["out" "hidden"]
この プロパティ は読み取り専用です。
層の出力名。
HasStateOutputs
プロパティが 0
(false
) の場合、層は、出力データに対応する "out"
という名前の 1 つの出力をもちます。
HasStateOutputs
プロパティが 1
(true
) の場合、層は、それぞれ出力データおよび隠れ状態に対応する "out"
および "hidden"
という名前の 2 つの出力をもちます。この場合、層は、層処理中に計算された状態値も出力します。
GRULayer
オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。
例
GRU 層の作成
名前が 'gru1'
で、隠れユニットが 100 個の GRU 層を作成します。
layer = gruLayer(100,'Name','gru1')
layer = GRULayer with properties: Name: 'gru1' InputNames: {'in'} OutputNames: {'out'} NumInputs: 1 NumOutputs: 1 HasStateInputs: 0 HasStateOutputs: 0 Hyperparameters InputSize: 'auto' NumHiddenUnits: 100 OutputMode: 'sequence' StateActivationFunction: 'tanh' GateActivationFunction: 'sigmoid' ResetGateMode: 'after-multiplication' Learnable Parameters InputWeights: [] RecurrentWeights: [] Bias: [] State Parameters HiddenState: [] Use properties method to see a list of all properties.
Layer
配列に GRU 層を含めます。
inputSize = 12;
numHiddenUnits = 100;
numClasses = 9;
layers = [ ...
sequenceInputLayer(inputSize)
gruLayer(numHiddenUnits)
fullyConnectedLayer(numClasses)
softmaxLayer
classificationLayer]
layers = 5x1 Layer array with layers: 1 '' Sequence Input Sequence input with 12 dimensions 2 '' GRU GRU with 100 hidden units 3 '' Fully Connected 9 fully connected layer 4 '' Softmax softmax 5 '' Classification Output crossentropyex
アルゴリズム
ゲート付き回帰型ユニット層
GRU 層は、時系列データおよびシーケンス データのタイム ステップ間の依存関係を学習する RNN 層です。
タイム ステップ t における層の "隠れ状態" には、このタイム ステップの GRU 層の出力が含まれています。各タイム ステップで、層では情報をこの状態に追加したり、この状態から削除したりします。その際、層では "ゲート" を使用して、これらの更新を制御します。
以下のコンポーネントは、層の隠れ状態を制御します。
コンポーネント | 目的 |
---|---|
リセット ゲート (r) | 状態のリセット レベルを制御 |
更新ゲート (z) | 状態の更新レベルを制御 |
候補状態 () | 隠れ状態に追加される更新のレベルを制御 |
GRU 層の学習可能な重みは、入力の重み W (InputWeights
)、再帰重み R (RecurrentWeights
)、およびバイアス b (Bias
) です。ResetGateMode
プロパティが "recurrent-bias-after-multiplication"
の場合にゲートと状態を計算するには、2 つのセットのバイアス値が必要です。行列 W および R はそれぞれ、各コンポーネントの入力の重みおよび再帰重みの連結です。これらの行列は、層によって次の順序で連結されます。
ここで、r、z、および は、それぞれリセット ゲート、更新ゲート、候補状態を表します。
バイアス ベクトルは ResetGateMode
プロパティによって異なります。ResetGateMode
が "after-multiplication"
または "before-multiplication"
の場合、このバイアス ベクトルは、3 つのベクトルの連結です。
ここで、添字 W は、このバイアスが入力の重みを乗算したものに対応していることを表します。
ResetGateMode
が "recurrent-bias-after-multiplication"
の場合、このバイアス ベクトルは、6 つのベクトルの連結です。
ここで、添字 R は、このバイアスが再帰重みを乗算したものに対応していることを表します。
タイム ステップ t での隠れ状態は次の方程式で与えられます。
次の式は、タイム ステップ t におけるコンポーネントを表しています。
コンポーネント | ResetGateMode | 式 | |
---|---|---|---|
リセット ゲート | "after-multiplication" | ||
"before-multiplication" | |||
"recurrent-bias-after-multiplication" | |||
更新ゲート | "after-multiplication" | ||
"before-multiplication" | |||
"recurrent-bias-after-multiplication" | |||
候補状態 | "after-multiplication" | ||
"before-multiplication" | |||
"recurrent-bias-after-multiplication" |
これらの計算では、 および はそれぞれゲート活性化関数および状態活性化関数を表します。関数 gruLayer
は既定で、 で与えられるシグモイド関数を使用して、状態活性化関数を計算するためのゲート活性化関数および双曲線正接関数 (tanh) を計算します。状態活性化関数とゲート活性化関数を指定するには、それぞれ StateActivationFunction
プロパティと GateActivationFunction
プロパティを使用します。
層の入力形式と出力形式
層配列内または層グラフ内の層は、書式化された dlarray
オブジェクトとして後続の層にデータを渡します。dlarray
オブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。
"S"
— 空間"C"
— チャネル"B"
— バッチ"T"
— 時間"U"
— 指定なし
たとえば、4 次元配列として表された 2 次元イメージ データがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージ データは "SSCB"
(spatial、spatial、channel、batch) という書式で表されます。
functionLayer
オブジェクトを使用するか、関数 forward
と関数 predict
を dlnetwork
オブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらの dlarray
オブジェクトを操作できます。
次の表は、GRULayer
オブジェクトでサポートされている入力形式、および対応する出力形式を示しています。ソフトウェアが nnet.layer.Formattable
クラスを継承していないカスタム層、または Formattable
プロパティが 0
(false) に設定された FunctionLayer
オブジェクトに層の出力を渡す場合、その層は書式化されていない dlarray
オブジェクトを受け取り、この表に示された形式に従って次元が並べられます。ここには一部の形式のみを示します。層では、追加の "S"
(空間) 次元または "U"
(未指定) 次元をもつ形式など、追加の形式がサポートされている場合があります。
入力形式 | OutputMode | 出力形式 |
---|---|---|
| "sequence" |
|
"last" | ||
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
dlnetwork
オブジェクトでは、GRULayer
オブジェクトもこれらの入力形式と出力形式の組み合わせをサポートします。
入力形式 | OutputMode | 出力形式 |
---|---|---|
| "sequence" |
|
"last" | ||
| "sequence" | |
"last" | ||
| "sequence" | |
"last" | ||
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" | ||
| "sequence" | |
"last" | ||
| "sequence" | |
"last" | ||
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" | ||
| "sequence" | |
"last" | ||
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
| |
| "sequence" |
|
"last" |
|
trainNetwork
ワークフローでこれらの入力形式を使用するには、flattenLayer
を使用してデータを "CB"
(channel、batch) または "CBT"
(channel、batch、time) の形式に変換します。
HasStateInputs
プロパティが 1
(true
) の場合、それぞれ隠れ状態とセル状態に対応する "hidden"
および "cell"
という名前の 2 つの入力が層に追加されます。これらの追加の入力は、"CB"
(channel、batch) という入力形式を想定しています。
HasStateOutputs
プロパティが 1
(true
) の場合、それぞれ隠れ状態とセル状態に対応する "hidden"
および "cell"
という名前の 2 つの出力が層に追加されます。これらの追加の出力は、"CB"
(channel、batch) という出力形式をもちます。
参照
[1] Cho, Kyunghyun, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. "Learning phrase representations using RNN encoder-decoder for statistical machine translation." arXiv preprint arXiv:1406.1078 (2014).
[2] Glorot, Xavier, and Yoshua Bengio. "Understanding the Difficulty of Training Deep Feedforward Neural Networks." In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 249–356. Sardinia, Italy: AISTATS, 2010. https://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
[3] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification." In 2015 IEEE International Conference on Computer Vision (ICCV), 1026–34. Santiago, Chile: IEEE, 2015. https://doi.org/10.1109/ICCV.2015.123
[4] Saxe, Andrew M., James L. McClelland, and Surya Ganguli. "Exact Solutions to the Nonlinear Dynamics of Learning in Deep Linear Neural Networks.” Preprint, submitted February 19, 2014. https://arxiv.org/abs/1312.6120.
拡張機能
C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。
使用上の注意および制限:
一般的なコード生成では、HasStateInputs
プロパティと HasStateOutputs
プロパティを 0
(false) に設定しなければなりません。
Intel® MKL-DNN または ARM® Compute Library を使用してコードを生成する場合、以下のようになります。
StateActivationFunction
プロパティを"tanh"
に設定しなければなりません。GateActivationFunction
プロパティを"sigmoid"
に設定しなければなりません。ResetGateMode
プロパティを"after-multiplication"
または"recurrent-bias-after-multiplication"
に設定しなければなりません。
汎用 C/C++ コードを生成する場合:
ResetGateMode
プロパティは、"after-multiplication"
、"before-multiplication"
、または"recurrent-bias-after-multiplication"
に設定できます。
GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。
使用上の注意および制限:
StateActivationFunction
プロパティを"tanh"
に設定しなければなりません。GateActivationFunction
プロパティを"sigmoid"
に設定しなければなりません。ResetGateMode
プロパティを"after-multiplication"
または"recurrent-bias-after-multiplication"
に設定しなければなりません。HasStateInputs
プロパティとHasStateOutputs
プロパティを0
(false) に設定しなければなりません。
バージョン履歴
R2020a で導入R2023a: dlnetwork
オブジェクトの GRU 層に対するリセット ゲート モードの指定
dlnetwork
オブジェクトの GRU 層に対しては、ResetGateMode
プロパティを使用してリセット ゲート モードを指定します。
MATLAB コマンド
次の MATLAB コマンドに対応するリンクがクリックされました。
コマンドを MATLAB コマンド ウィンドウに入力して実行してください。Web ブラウザーは MATLAB コマンドをサポートしていません。
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)