gruLayer

再帰型ニューラルネットワーク (RNN) 用のゲート付き回帰型ユニット (GRU) 層

このページをすべて展開する

説明

GRU 層は、時系列データおよびシーケンスデータのタイムステップ間の依存関係を学習する RNN 層です。

作成

構文

layer = gruLayer(numHiddenUnits)

layer = gruLayer(numHiddenUnits,Name,Value)

説明

layer = gruLayer(numHiddenUnits) は、GRU 層を作成し、NumHiddenUnits プロパティを設定します。

例

layer = gruLayer(numHiddenUnits,Name,Value) は、1 つ以上の名前と値のペアの引数を使用して、追加の OutputMode、活性化、状態、パラメーターと初期化、学習率および正則化、および Name の各プロパティを設定します。複数の名前と値のペアの引数を指定できます。各プロパティ名を引用符で囲みます。

プロパティ

すべて展開する

GRU

`NumHiddenUnits` — 隠れユニットの数
正の整数

隠れユニットの数 (隠れサイズとも呼ばれる)。正の整数として指定します。

隠れユニットの数は、タイムステップ間に層によって記憶された情報 (隠れ状態) の量に相当します。隠れ状態には、シーケンス長に関係なく、以前のすべてのタイムステップからの情報を含めることができます。隠れユニットの数が大きすぎる場合、層が学習データに対して過適合する可能性があります。隠れ状態によって、1 回の反復の間に層で処理されるタイムステップ数が制限されることはありません。

この層は、NumHiddenUnits 個のチャネルをもつデータを出力します。

GRULayer オブジェクトを作成する場合、このプロパティを設定するには、引数 numHiddenUnits を使用します。GRULayer オブジェクトの作成後、このプロパティは読み取り専用になります。

`OutputMode` — 出力モード
`"sequence"` (既定値) | `"last"`

出力モード。次のいずれかの値として指定します。

"sequence" — シーケンス全体を出力します。
"last" — シーケンスの最後のタイムステップを出力します。

GRULayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

GRULayer オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。GRULayer オブジェクトの作成後、このプロパティは読み取り専用になります。

`HasStateInputs` — 層への状態入力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

層への状態入力のフラグ。0 (false) または 1 (true) として指定します。

HasStateInputs プロパティが 0 (false) の場合、層は、入力データに対応する "in" という名前の 1 つの入力をもちます。この場合、層は HiddenState プロパティを使用して層処理を行います。

HasStateInputs プロパティが 1 (true) の場合、層は、それぞれ入力データおよび隠れ状態に対応する "in" および "hidden" という名前の 2 つの入力をもちます。この場合、層は、ネットワークによってこれらの入力に渡された値を使用して層処理を行います。HasStateInputs が 1 (true) の場合、HiddenState プロパティは空でなければなりません。

`HasStateOutputs` — 層からの状態出力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

層からの状態出力のフラグ。0 (false) または 1 (true) として指定します。

HasStateOutputs プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

HasStateOutputs プロパティが 1 (true) の場合、層は、それぞれ出力データおよび隠れ状態に対応する "out" および "hidden" という名前の 2 つの出力をもちます。この場合、層は、層処理中に計算された状態値も出力します。

`ResetGateMode` — リセットゲートモード
`"after-multiplication"` (既定値) | `"before-multiplication"` | `"recurrent-bias-after-multiplication"`

リセットゲートモード。次のいずれかの値として指定します。

"after-multiplication" — 行列乗算後にリセットゲートを適用します。このオプションは cuDNN に対応しています。
"before-multiplication" — 行列乗算前にリセットゲートを適用します。
"recurrent-bias-after-multiplication" — 行列乗算後にリセットゲートを適用し、さらに、再帰重みに関する一連のバイアス項を使用します。

リセットゲートの計算に関する詳細については、ゲート付き回帰型ユニット層を参照してください。

R2023a より前: dlnetwork オブジェクトは、ResetGateMode が "after-multiplication" に設定されている GRU 層のみをサポートします。

`InputSize` — 入力サイズ
読み取り専用: `"auto"` (既定値) | 正の整数

このプロパティは読み取り専用です。

入力サイズ。正の整数または "auto" として指定します。InputSize が "auto" の場合、学習時に入力サイズが自動的に割り当てられます。

InputSize が "auto" の場合、GRULayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: double | char | string

活性化

`StateActivationFunction` — 隠れ状態を更新する活性化関数
`"tanh"` (既定値) | `"softsign"` | `"relu"`

隠れ状態を更新する活性化関数。次のいずれかの値として指定します。

"tanh" — 双曲線正接関数 (tanh) を使用します。
"softsign" — ソフトサイン関数 $softsign (x) = \frac{x}{1 + | x |}$ を使用します。
"relu" (R2024b 以降) — 正規化線形ユニット (ReLU) 関数 $ReLU (x) = {\begin{matrix} x, & x > 0 \\ 0, & x \leq 0 \end{matrix}$ を使用します。

ソフトウェアは、隠れ状態を更新する計算における関数 $σ_{s}$ としてこのオプションを使用します。

GRULayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

`GateActivationFunction` — ゲートに適用する活性化関数
`"sigmoid"` (既定値) | `"hard-sigmoid"`

ゲートに適用する活性化関数。次のいずれかの値として指定します。

"sigmoid" — シグモイド関数 $σ (x) = {(1 + e^{- x})}^{- 1}$ を使用します。
"hard-sigmoid" — ハードシグモイド関数を使用します。

$σ (x) = {\begin{matrix} \begin{array}{l} 0 \\ 0.2 x + 0.5 \\ 1 \end{array} & \begin{array}{l} if x < - 2.5 \\ if - 2.5 \leq x \leq 2.5 \\ if x > 2.5 \end{array} \end{matrix} .$

ソフトウェアは、層のゲートの計算における関数 $σ_{g}$ としてこのオプションを使用します。

GRULayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

状態

`HiddenState` — 隠れ状態
`[]` (既定値) | 数値ベクトル

層処理で使用される隠れ状態。NumHiddenUnits 行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときの隠れ状態の初期値に対応します。

このプロパティを手動で設定した後に関数 resetState を呼び出すと、隠れ状態がこの値に設定されます。

HasStateInputs が 1 (true) の場合、HiddenState プロパティは空でなければなりません。

データ型: single | double

パラメーターと初期化

`InputWeightsInitializer` — 入力の重みを初期化する関数
`"glorot"` (既定値) | `"he"` | `"orthogonal"` | `"narrow-normal"` | `"zeros"` | `"ones"` | 関数ハンドル

入力の重みを初期化する関数。次のいずれかに指定します。

"glorot" — Glorot 初期化子[2] (Xavier 初期化子とも呼ばれる) を使用して入力の重みを初期化します。Glorot 初期化子は、平均 0、分散 2/(InputSize + numOut) の一様分布から個別にサンプリングを行います。ここで、numOut = 3*NumHiddenUnits です。
"he" — He 初期化子[3]を使用して入力の重みを初期化します。He 初期化子は、平均 0、分散 2/InputSize の正規分布からサンプリングを行います。
"orthogonal" – 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布に従ってサンプリングされた乱数行列 Z に対する QR 分解 Z = QR によって与えられます。[4]
"narrow-normal" — 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、入力の重みを初期化します。
"zeros" — 0 で入力の重みを初期化します。
"ones" — 1 で入力の重みを初期化します。
関数ハンドル — カスタム関数で入力の重みを初期化します。関数ハンドルを指定する場合、関数は weights = func(sz) という形式でなければなりません。ここで、sz は入力の重みのサイズです。

この層では、InputWeights プロパティが空の場合にのみ入力の重みが初期化されます。

GRULayer オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。

データ型: char | string | function_handle

`RecurrentWeightsInitializer` — 再帰重みを初期化する関数
`"orthogonal"` (既定値) | `"glorot"` | `"he"` | `"narrow-normal"` | `"zeros"` | `"ones"` | 関数ハンドル

再帰重みを初期化する関数。次のいずれかに指定します。

"orthogonal"– 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布に従ってサンプリングされた乱数行列 Z に対する QR 分解 Z = QR によって与えられます。[4]
"glorot" — Glorot 初期化子[2] (Xavier 初期化子とも呼ばれる) を使用して再帰重みを初期化します。Glorot 初期化子は、平均 0、分散 2/(numIn + numOut) の一様分布から個別にサンプリングを行います。ここで、numIn = NumHiddenUnits および numOut = 3*NumHiddenUnits です。
"he" — He 初期化子[3]を使用して再帰重みを初期化します。He 初期化子は、平均 0、分散 2/NumHiddenUnits の正規分布からサンプリングを行います。
"narrow-normal" — 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、再帰重みを初期化します。
"zeros" — 0 で再帰重みを初期化します。
"ones" — 1 で再帰重みを初期化します。
関数ハンドル — カスタム関数で再帰重みを初期化します。関数ハンドルを指定する場合、関数は weights = func(sz) という形式でなければなりません。ここで、sz は再帰重みのサイズです。

この層では、RecurrentWeights プロパティが空の場合にのみ再帰重みが初期化されます。

GRULayer オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。

データ型: char | string | function_handle

`BiasInitializer` — バイアスを初期化する関数
`"zeros"` (既定値) | `"narrow-normal"` | `"ones"` | 関数ハンドル

バイアスを初期化する関数。次のいずれかの値として指定します。

"zeros" — 0 でバイアスを初期化します。
"narrow-normal" — 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、バイアスを初期化します。
"ones" — 1 でバイアスを初期化します。
関数ハンドル — カスタム関数でバイアスを初期化します。関数ハンドルを指定する場合、関数は bias = func(sz) という形式でなければなりません。ここで、sz はバイアスのサイズです。

この層では、Bias プロパティが空の場合にのみバイアスが初期化されます。

GRULayer オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。

データ型: char | string | function_handle

`InputWeights` — 入力重み
`[]` (既定値) | 行列

入力の重み。行列として指定します。

この入力重み行列は、GRU 層にあるコンポーネントの 3 つの入力重み行列の連結です。3 つの行列は、以下の順で垂直に連結されています。

リセットゲート
更新ゲート
候補状態

入力の重みは学習可能なパラメーターです。関数 trainnet を使用してニューラルネットワークに学習させるとき、InputWeights が空でない場合、ソフトウェアは InputWeights プロパティを初期値として使用します。InputWeights が空の場合、InputWeightsInitializer によって指定された初期化子が使用されます。

学習時、InputWeights は 3*NumHiddenUnits 行 InputSize 列の行列です。

`RecurrentWeights` — 再帰重み
`[]` (既定値) | 行列

再帰重み。行列として指定します。

この再帰重み行列は、GRU 層にあるコンポーネントの 3 つの再帰重み行列の連結です。3 つの行列は、以下の順で垂直に連結されています。

リセットゲート
更新ゲート
候補状態

再帰重みは学習可能なパラメーターです。関数 trainnet を使用して RNN に学習させるとき、RecurrentWeights が空でない場合、ソフトウェアは RecurrentWeights プロパティを初期値として使用します。RecurrentWeights が空の場合、RecurrentWeightsInitializer によって指定された初期化子が使用されます。

学習時、RecurrentWeights は 3*NumHiddenUnits 行 NumHiddenUnits 列の行列です。

`Bias` — 層のバイアス
`[]` (既定値) | 数値ベクトル

層のバイアス。数値ベクトルとして指定します。

ResetGateMode が "after-multiplication" または "before-multiplication" の場合、このバイアスベクトルは、層処理に含まれるコンポーネントの 3 つのバイアスベクトルの連結です。この層は、これらのベクトルを次の順序で垂直に連結します。

リセットゲート
更新ゲート
候補状態

この場合、学習時、Bias は 3*NumHiddenUnits 行 1 列の数値ベクトルです。

ResetGateMode が "recurrent-bias-after-multiplication" の場合、このバイアスベクトルは、GRU 層にあるコンポーネントの 6 つのバイアスベクトルの連結です。この層は、これらのベクトルを次の順序で垂直に連結します。

リセットゲート
更新ゲート
候補状態
リセットゲート (再帰バイアス)
更新ゲート (再帰バイアス)
候補状態 (再帰バイアス)

この場合、学習時、Bias は 6*NumHiddenUnits 行 1 列の数値ベクトルです。

層のバイアスは学習可能なパラメーターです。ニューラルネットワークに学習させるときに、Bias が空でない場合、trainnet 関数は Bias プロパティを初期値として使用します。Bias が空の場合、ソフトウェアは BiasInitializer によって指定された初期化子を使用します。

リセットゲートの計算に関する詳細については、ゲート付き回帰型ユニット層を参照してください。

学習率および正則化

`InputWeightsLearnRateFactor` — 入力の重みの学習率係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

入力の重みの学習率係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、層の入力の重みの学習率係数が決定されます。たとえば、InputWeightsLearnRateFactor が 2 の場合、層の入力の重みの学習率係数は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル学習率が決定されます。

InputWeights に含まれる 3 つの個々の行列について学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。InputWeightsLearnRateFactor のエントリは、以下の値の学習率係数に対応します。

リセットゲート
更新ゲート
候補状態

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

`RecurrentWeightsLearnRateFactor` — 再帰重みの学習率係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

再帰重みの学習率係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、層の再帰重みの学習率が決定されます。たとえば、RecurrentWeightsLearnRateFactor が 2 の場合、層の再帰重みの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル学習率が決定されます。

RecurrentWeights に含まれる 3 つの個々の行列について学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。RecurrentWeightsLearnRateFactor のエントリは、以下の値の学習率係数に対応します。

リセットゲート
更新ゲート
候補状態

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

`BiasLearnRateFactor` — バイアスの学習率係数
`1` (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

バイアスの学習率係数。非負のスカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、この層のバイアスの学習率が決定されます。たとえば、BiasLearnRateFactor が 2 の場合、層のバイアスの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル学習率が決定されます。

Bias に含まれる 3 つの個々のベクトルについて学習率係数の値を制御するには、1 行 3 列のベクトルを指定します。BiasLearnRateFactor のエントリは、以下の値の学習率係数に対応します。

リセットゲート
更新ゲート
候補状態

ResetGateMode が "recurrent-bias-after-multiplication" の場合、ソフトウェアは再帰バイアスベクトルについても同じベクトルを使用します。

すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

`InputWeightsL2Factor` — 入力の重みの L₂ 正則化係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

入力の重みの L₂ 正則化係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル L₂ 正則化係数が乗算されて、層の入力の重みの L₂ 正則化係数が決定されます。たとえば、InputWeightsL2Factor が 2 の場合、層の入力の重みの L₂ 正則化係数は現在のグローバル L₂ 正則化係数の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、L₂ 正則化係数が決定されます。

InputWeights に含まれる 3 つの個々の行列の L₂ 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。InputWeightsL2Factor のエントリは、以下の値の L₂ 正則化係数に対応します。

リセットゲート
更新ゲート
候補状態

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

`RecurrentWeightsL2Factor` — 再帰重みの L₂ 正則化係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

再帰重みの L₂ 正則化係数。数値スカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル L₂ 正則化係数が乗算されて、層の再帰重みの L₂ 正則化係数が決定されます。たとえば、RecurrentWeightsL2Factor が 2 の場合、層の再帰重みの L₂ 正則化係数は現在のグローバル L₂ 正則化係数の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、L₂ 正則化係数が決定されます。

RecurrentWeights に含まれる 3 つの個々の行列の L₂ 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。RecurrentWeightsL2Factor のエントリは、以下の値の L₂ 正則化係数に対応します。

リセットゲート
更新ゲート
候補状態

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

`BiasL2Factor` — バイアスの L₂ 正則化係数
`0` (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

バイアスの L₂ 正則化係数。非負のスカラーまたは 1 行 3 列の数値ベクトルとして指定します。

この係数にグローバル L₂ 正則化係数が乗算されて、この層のバイアスの L₂ 正則化が決定されます。たとえば、BiasL2Factor が 2 の場合、この層のバイアスの L₂ 正則化はグローバル L₂ 正則化係数の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル L₂ 正則化係数が決定されます。

Bias に含まれる個々のベクトルの L₂ 正則化係数の値を制御するには、1 行 3 列のベクトルを指定します。BiasL2Factor のエントリは、以下の値の L₂ 正則化係数に対応します。

リセットゲート
更新ゲート
候補状態

ResetGateMode が "recurrent-bias-after-multiplication" の場合、ソフトウェアは再帰バイアスベクトルについても同じベクトルを使用します。

すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。

例: 2

例: [1 2 1]

層

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

層の名前。文字ベクトルまたは string スカラーとして指定します。Layer 配列入力の場合、trainnet 関数および dlnetwork 関数は、名前のない層に自動的に名前を割り当てます。

GRULayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: char | string

`NumInputs` — 入力の数
読み取り専用: `1` | `2`

このプロパティは読み取り専用です。

層への入力の数。

データ型: double

`InputNames` — 層の入力名
読み取り専用: `"in"` | `["in" "hidden"]`

このプロパティは読み取り専用です。

層の入力名。

GRULayer オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。

`NumOutputs` — 出力の数
読み取り専用: `1` | `2`

このプロパティは読み取り専用です。

層からの出力の数。

HasStateOutputs プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

データ型: double

`OutputNames` — 層の出力名
読み取り専用: `"out"` | `["out" "hidden"]`

このプロパティは読み取り専用です。

層の出力名。

HasStateOutputs プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

GRULayer オブジェクトは、このプロパティを文字ベクトルの cell 配列として格納します。

例

すべて折りたたむ

GRU 層の作成

ライブスクリプトを開く

名前が gru1 で、隠れユニットが 100 個の GRU 層を作成します。

layer = gruLayer(100,Name="gru1")

layer = 
  GRULayer with properties:

                       Name: 'gru1'
                 InputNames: {'in'}
                OutputNames: {'out'}
                  NumInputs: 1
                 NumOutputs: 1
             HasStateInputs: 0
            HasStateOutputs: 0

   Hyperparameters
                  InputSize: 'auto'
             NumHiddenUnits: 100
                 OutputMode: 'sequence'
    StateActivationFunction: 'tanh'
     GateActivationFunction: 'sigmoid'
              ResetGateMode: 'after-multiplication'

   Learnable Parameters
               InputWeights: []
           RecurrentWeights: []
                       Bias: []

   State Parameters
                HiddenState: []

  Show all properties

Layer 配列に GRU 層を含めます。

inputSize = 12;
numHiddenUnits = 100;
numClasses = 9;

layers = [ ...
    sequenceInputLayer(inputSize)
    gruLayer(numHiddenUnits)
    fullyConnectedLayer(numClasses)
    softmaxLayer]

layers = 
  4×1 Layer array with layers:

     1   ''   Sequence Input    Sequence input with 12 dimensions
     2   ''   GRU               GRU with 100 hidden units
     3   ''   Fully Connected   9 fully connected layer
     4   ''   Softmax           softmax

アルゴリズム

すべて展開する

ゲート付き回帰型ユニット層

GRU 層は、時系列データおよびシーケンスデータのタイムステップ間の依存関係を学習する RNN 層です。

タイムステップ t における層の "隠れ状態" には、このタイムステップの GRU 層の出力が含まれています。各タイムステップで、層では情報をこの状態に追加したり、この状態から削除したりします。その際、層では "ゲート" を使用して、これらの更新を制御します。

以下のコンポーネントは、層の隠れ状態を制御します。

コンポーネント	目的
リセットゲート (r)	状態のリセットレベルを制御
更新ゲート (z)	状態の更新レベルを制御
候補状態 ( $\tilde{h}$ )	隠れ状態に追加される更新のレベルを制御

GRU 層の学習可能なパラメーターの重みは、入力の重み W (InputWeights)、再帰重み R (RecurrentWeights)、およびバイアス b (Bias) です。ResetGateMode プロパティが "recurrent-bias-after-multiplication" の場合にゲートと状態を計算するには、2 つのセットのバイアス値が必要です。行列 W および R はそれぞれ、各コンポーネントの入力の重みおよび再帰重みの連結です。これらの行列は、層によって次の順序で連結されます。

$W = [\begin{matrix} W_{r} \\ W_{z} \\ W_{\tilde{h}} \end{matrix}], R = [\begin{matrix} R_{r} \\ R_{z} \\ R_{\tilde{h}} \end{matrix}],$

ここで、r、z、および $\tilde{h}$ は、それぞれリセットゲート、更新ゲート、候補状態を表します。

バイアスベクトルは ResetGateMode プロパティによって異なります。ResetGateMode が "after-multiplication" または "before-multiplication" の場合、このバイアスベクトルは、3 つのベクトルの連結です。

$b = [\begin{matrix} b_{W_{r}} \\ b_{W_{z}} \\ b_{W_{\tilde{h}}} \end{matrix}],$

ここで、添字 W は、このバイアスが入力の重みを乗算したものに対応していることを表します。

ResetGateMode が "recurrent-bias-after-multiplication" の場合、このバイアスベクトルは、6 つのベクトルの連結です。

$b = [\begin{matrix} b_{W_{r}} \\ b_{W_{z}} \\ b_{W_{\tilde{h}}} \\ b_{R_{r}} \\ b_{R_{z}} \\ b_{R_{\tilde{h}}} \end{matrix}],$

ここで、添字 R は、このバイアスが再帰重みを乗算したものに対応していることを表します。

タイムステップ t での隠れ状態は次の方程式で与えられます。

$h_{t} = (1 - z_{t}) ⊙ {\tilde{h}}_{t} + z_{t} ⊙ h_{t - 1} .$

次の式は、タイムステップ t におけるコンポーネントを表しています。

コンポーネント	`ResetGateMode`	式
リセットゲート	`"after-multiplication"`	$r_{t} = σ_{g} (W_{r} x_{t} + b_{W_{r}} + R_{r} h_{t - 1})$
	`"before-multiplication"`	$r_{t} = σ_{g} (W_{r} x_{t} + b_{W_{r}} + R_{r} h_{t - 1})$
	`"recurrent-bias-after-multiplication"`	$r_{t} = σ_{g} (W_{r} x_{t} + b_{W_{r}} + R_{r} h_{t - 1} + b_{R_{r}})$
更新ゲート	`"after-multiplication"`	$z_{t} = σ_{g} (W_{z} x_{t} + b_{W_{z}} + R_{z} h_{t - 1})$
	`"before-multiplication"`	$z_{t} = σ_{g} (W_{z} x_{t} + b_{W_{z}} + R_{z} h_{t - 1})$
	`"recurrent-bias-after-multiplication"`	$z_{t} = σ_{g} (W_{z} x_{t} + b_{W_{z}} + R_{z} h_{t - 1} + b_{R_{z}})$
候補状態	`"after-multiplication"`	${\tilde{h}}_{t} = σ_{s} (W_{\tilde{h}} x_{t} + b_{W_{\tilde{h}}} + r_{t} ⊙ (R_{\tilde{h}} h_{t - 1}))$
	`"before-multiplication"`	${\tilde{h}}_{t} = σ_{s} (W_{\tilde{h}} x_{t} + b_{W_{\tilde{h}}} + R_{\tilde{h}} (r_{t} ⊙ h_{t - 1}))$
	`"recurrent-bias-after-multiplication"`	${\tilde{h}}_{t} = σ_{s} (W_{\tilde{h}} x_{t} + b_{W_{\tilde{h}}} + r_{t} ⊙ (R_{\tilde{h}} h_{t - 1} + b_{R_{\tilde{h}}}))$

これらの計算では、 $σ_{g}$ および $σ_{s}$ はそれぞれゲート活性化関数および状態活性化関数を表します。関数 gruLayer は既定で、 $σ (x) = {(1 + e^{- x})}^{- 1}$ で与えられるシグモイド関数を使用して、状態活性化関数を計算するためのゲート活性化関数および双曲線正接関数 (tanh) を計算します。状態活性化関数とゲート活性化関数を指定するには、それぞれ StateActivationFunction プロパティと GateActivationFunction プロパティを使用します。

層の入力形式と出力形式

層配列内または層グラフ内の層は、形式を整えた dlarray オブジェクトとして後続の層にデータを渡します。dlarray オブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、4 次元配列として表された 2 次元イメージデータがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージデータは "SSCB" (空間、空間、チャネル、バッチ) という形式で記述できます。

functionLayer オブジェクトを使用するか、関数 forward と関数 predict を dlnetwork オブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらの dlarray オブジェクトを操作できます。

次の表は、GRULayer オブジェクトでサポートされている入力形式、および対応する出力形式を示しています。ソフトウェアが nnet.layer.Formattable クラスを継承していないカスタム層、または Formattable プロパティが 0 (false) に設定された FunctionLayer オブジェクトに層の出力を渡す場合、その層は形式を整えていない dlarray オブジェクトを受け取り、この表に示された形式に従って次元が並べられます。ここには一部の形式のみを示します。層では、追加の "S" (空間) 次元または "U" (未指定) 次元をもつ形式など、追加の形式がサポートされている場合があります。

入力形式	`OutputMode`	出力形式
`"CB"` (channel、batch)	`"sequence"`	`"CB"` (channel、batch)
`"CB"` (channel、batch)	`"last"`	`"CB"` (channel、batch)
`"CBT"` (channel、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"CBT"` (channel、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SB"` (spatial、batch)	`"sequence"`	`"CB"` (channel、batch)
`"SB"` (spatial、batch)	`"last"`	`"CB"` (channel、batch)

dlnetwork オブジェクトでは、GRULayer オブジェクトもこれらの入力形式と出力形式の組み合わせをサポートします。

入力形式	`OutputMode`	出力形式
`"SCB"` (spatial、channel、batch)	`"sequence"`	`"CB"` (channel、batch)
`"SCB"` (spatial、channel、batch)	`"last"`
`"SSCB"` (spatial、spatial、channel、batch)	`"sequence"`
`"SSCB"` (spatial、spatial、channel、batch)	`"last"`
`"SSSCB"` (spatial、spatial、spatial、channel、batch)	`"sequence"`
`"SSSCB"` (spatial、spatial、spatial、channel、batch)	`"last"`
`"SCBT"` (spatial、channel、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SCBT"` (spatial、channel、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SSCBT"` (spatial、spatial、channel、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SSCBT"` (spatial、spatial、channel、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SSSCBT"` (spatial、spatial、spatial、channel、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SC"` (spatial、channel)	`"sequence"`	`"CU"` (channel、unspecified)
`"SC"` (spatial、channel)	`"last"`
`"SSC"` (spatial、spatial、channel)	`"sequence"`
`"SSC"` (spatial、spatial、channel)	`"last"`
`"SSSC"` (spatial、spatial、spatial、channel)	`"sequence"`
`"SSSC"` (spatial、spatial、spatial、channel)	`"last"`
`"CT"` (channel、time)	`"sequence"`	`"CT"` (channel、time)
`"CT"` (channel、time)	`"last"`	`"CU"` (channel、unspecified)
`"SCT"` (spatial、channel、time)	`"sequence"`	`"CT"` (channel、time)
`"SCT"` (spatial、channel、time)	`"last"`	`"CU"` (channel、unspecified)
`"SSCT"` (spatial、spatial、channel、time)	`"sequence"`	`"CT"` (channel、time)
`"SSCT"` (spatial、spatial、channel、time)	`"last"`	`"CU"` (channel、unspecified)
`"SSSCT"` (spatial、spatial、channel、time)	`"sequence"`	`"CT"` (channel、time)
`"SSSCT"` (spatial、spatial、channel、time)	`"last"`	`"CU"` (channel、unspecified)
`"SSB"` (spatial、spatial、batch)	`"sequence"`	`"CB"` (channel、batch)
`"SSB"` (spatial、spatial、batch)	`"last"`
`"SSSB"` (spatial、spatial、spatial、batch)	`"sequence"`
`"SSSB"` (spatial、spatial、spatial、batch)	`"last"`
`"BT"` (batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"BT"` (batch、time)	`"last"`	`"CB"` (channel、batch)
`"SBT"` (spatial、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SBT"` (spatial、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SSBT"` (spatial、spatial、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SSBT"` (spatial、spatial、batch、time)	`"last"`	`"CB"` (channel、batch)
`"SSSBT"` (spatial、spatial、spatial、batch、time)	`"sequence"`	`"CBT"` (channel、batch、time)
`"SSSBT"` (spatial、spatial、spatial、batch、time)	`"last"`	`"CB"` (channel、batch)

HasStateInputs プロパティが 1 (true) の場合、それぞれ隠れ状態とセル状態に対応する "hidden" および "cell" という名前の 2 つの入力が層に追加されます。これらの追加の入力は、"CB" (channel、batch) という入力形式を想定しています。

HasStateOutputs プロパティが 1 (true) の場合、それぞれ隠れ状態とセル状態に対応する "hidden" および "cell" という名前の 2 つの出力が層に追加されます。これらの追加の出力は、"CB" (channel、batch) という出力形式をもちます。

参照

[1] Cho, Kyunghyun, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. "Learning phrase representations using RNN encoder-decoder for statistical machine translation." arXiv preprint arXiv:1406.1078 (2014).

[2] Glorot, Xavier, and Yoshua Bengio. "Understanding the Difficulty of Training Deep Feedforward Neural Networks." In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 249–356. Sardinia, Italy: AISTATS, 2010. https://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

[3] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification." In 2015 IEEE International Conference on Computer Vision (ICCV), 1026–34. Santiago, Chile: IEEE, 2015. https://doi.org/10.1109/ICCV.2015.123

[4] Saxe, Andrew M., James L. McClelland, and Surya Ganguli. "Exact Solutions to the Nonlinear Dynamics of Learning in Deep Linear Neural Networks.” Preprint, submitted February 19, 2014. https://arxiv.org/abs/1312.6120.

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

一般的なコード生成では、HasStateInputs プロパティと HasStateOutputs プロパティを 0 (false) に設定しなければなりません。
コード生成では、指定なし (U) の次元をもつ dlarray オブジェクトをこの層に渡すことはサポートされていません。
コード生成では、この層への入力として、チャネル (C) の次元をもつ dlarray オブジェクトを渡さなければなりません。たとえば、コード生成では "SSC" や "SSCBT" などのデータ形式がサポートされます。
Intel^® MKL-DNN または ARM^® Compute Library を使用してコードを生成する場合、以下のようになります。
- StateActivationFunction プロパティを "tanh" に設定しなければなりません。
- GateActivationFunction プロパティを "sigmoid" に設定しなければなりません。
- ResetGateMode プロパティを "after-multiplication" または "recurrent-bias-after-multiplication" に設定しなければなりません。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限:

HasStateInputs プロパティと HasStateOutputs プロパティを 0 (false) に設定しなければなりません。
コード生成では、指定なし (U) の次元をもつ dlarray オブジェクトをこの層に渡すことはサポートされていません。
コード生成では、この層への入力として、チャネル (C) の次元をもつ dlarray オブジェクトを渡さなければなりません。たとえば、コード生成では "SSC" や "SSCBT" などのデータ形式がサポートされます。
NVIDIA^® TensorRT または CUDA 深層ニューラルネットワーク (cuDNN) ライブラリを使用してコードを生成する場合:
- StateActivationFunction プロパティを "tanh" に設定しなければなりません。
- GateActivationFunction プロパティを "sigmoid" に設定しなければなりません。
- ResetGateMode プロパティを "after-multiplication" または "recurrent-bias-after-multiplication" に設定しなければなりません。

バージョン履歴

R2020a で導入

すべて展開する

R2024b: ReLU 状態活性化関数の指定

ReLU 状態活性化関数を指定するには、StateActivationFunction プロパティを "relu" に設定します。

R2023a: `dlnetwork` オブジェクトの GRU 層に対するリセットゲートモードの指定

dlnetwork オブジェクトの GRU 層に対しては、ResetGateMode プロパティを使用してリセットゲートモードを指定します。

gruLayer

説明

作成

構文

説明

プロパティ

GRU

NumHiddenUnits — 隠れユニットの数 正の整数

OutputMode — 出力モード "sequence" (既定値) | "last"

HasStateInputs — 層への状態入力のフラグ 0 (false) (既定値) | 1 (true)

HasStateOutputs — 層からの状態出力のフラグ 0 (false) (既定値) | 1 (true)

ResetGateMode — リセット ゲート モード "after-multiplication" (既定値) | "before-multiplication" | "recurrent-bias-after-multiplication"

InputSize — 入力サイズ 読み取り専用: "auto" (既定値) | 正の整数

活性化

StateActivationFunction — 隠れ状態を更新する活性化関数 "tanh" (既定値) | "softsign" | "relu"

GateActivationFunction — ゲートに適用する活性化関数 "sigmoid" (既定値) | "hard-sigmoid"

状態

HiddenState — 隠れ状態 [] (既定値) | 数値ベクトル

パラメーターと初期化

InputWeightsInitializer — 入力の重みを初期化する関数 "glorot" (既定値) | "he" | "orthogonal" | "narrow-normal" | "zeros" | "ones" | 関数ハンドル

RecurrentWeightsInitializer — 再帰重みを初期化する関数 "orthogonal" (既定値) | "glorot" | "he" | "narrow-normal" | "zeros" | "ones" | 関数ハンドル

BiasInitializer — バイアスを初期化する関数 "zeros" (既定値) | "narrow-normal" | "ones" | 関数ハンドル

InputWeights — 入力重み [] (既定値) | 行列

RecurrentWeights — 再帰重み [] (既定値) | 行列

Bias — 層のバイアス [] (既定値) | 数値ベクトル

学習率および正則化

InputWeightsLearnRateFactor — 入力の重みの学習率係数 1 (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

RecurrentWeightsLearnRateFactor — 再帰重みの学習率係数 1 (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

BiasLearnRateFactor — バイアスの学習率係数 1 (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

InputWeightsL2Factor — 入力の重みの L2 正則化係数 1 (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

RecurrentWeightsL2Factor — 再帰重みの L2 正則化係数 1 (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

BiasL2Factor — バイアスの L2 正則化係数 0 (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

層

Name — 層の名前 '' (既定値) | 文字ベクトル | string スカラー

NumInputs — 入力の数 読み取り専用: 1 | 2

InputNames — 層の入力名 読み取り専用: "in" | ["in" "hidden"]

NumOutputs — 出力の数 読み取り専用: 1 | 2

OutputNames — 層の出力名 読み取り専用: "out" | ["out" "hidden"]

例

GRU 層の作成

アルゴリズム

ゲート付き回帰型ユニット層

層の入力形式と出力形式

参照

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

R2024b: ReLU 状態活性化関数の指定

R2023a: dlnetwork オブジェクトの GRU 層に対するリセット ゲート モードの指定

参考

トピック

`NumHiddenUnits` — 隠れユニットの数
正の整数

`OutputMode` — 出力モード
`"sequence"` (既定値) | `"last"`

`HasStateInputs` — 層への状態入力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

`HasStateOutputs` — 層からの状態出力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

`ResetGateMode` — リセットゲートモード
`"after-multiplication"` (既定値) | `"before-multiplication"` | `"recurrent-bias-after-multiplication"`

`InputSize` — 入力サイズ
読み取り専用: `"auto"` (既定値) | 正の整数

`StateActivationFunction` — 隠れ状態を更新する活性化関数
`"tanh"` (既定値) | `"softsign"` | `"relu"`

`GateActivationFunction` — ゲートに適用する活性化関数
`"sigmoid"` (既定値) | `"hard-sigmoid"`

`HiddenState` — 隠れ状態
`[]` (既定値) | 数値ベクトル

`InputWeightsInitializer` — 入力の重みを初期化する関数
`"glorot"` (既定値) | `"he"` | `"orthogonal"` | `"narrow-normal"` | `"zeros"` | `"ones"` | 関数ハンドル

`RecurrentWeightsInitializer` — 再帰重みを初期化する関数
`"orthogonal"` (既定値) | `"glorot"` | `"he"` | `"narrow-normal"` | `"zeros"` | `"ones"` | 関数ハンドル

`BiasInitializer` — バイアスを初期化する関数
`"zeros"` (既定値) | `"narrow-normal"` | `"ones"` | 関数ハンドル

`InputWeights` — 入力重み
`[]` (既定値) | 行列

`RecurrentWeights` — 再帰重み
`[]` (既定値) | 行列

`Bias` — 層のバイアス
`[]` (既定値) | 数値ベクトル

`InputWeightsLearnRateFactor` — 入力の重みの学習率係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

`RecurrentWeightsLearnRateFactor` — 再帰重みの学習率係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

`BiasLearnRateFactor` — バイアスの学習率係数
`1` (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

`InputWeightsL2Factor` — 入力の重みの L₂ 正則化係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

`RecurrentWeightsL2Factor` — 再帰重みの L₂ 正則化係数
`1` (既定値) | 数値スカラー | 1 行 3 列の数値ベクトル

`BiasL2Factor` — バイアスの L₂ 正則化係数
`0` (既定値) | 非負のスカラー | 1 行 3 列の数値ベクトル

`Name` — 層の名前
`''` (既定値) | 文字ベクトル | string スカラー

`NumInputs` — 入力の数
読み取り専用: `1` | `2`

`InputNames` — 層の入力名
読み取り専用: `"in"` | `["in" "hidden"]`

`NumOutputs` — 出力の数
読み取り専用: `1` | `2`

`OutputNames` — 層の出力名
読み取り専用: `"out"` | `["out" "hidden"]`

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

R2023a: `dlnetwork` オブジェクトの GRU 層に対するリセットゲートモードの指定