bilstmLayer

再帰型ニューラルネットワーク (RNN) 用の双方向長短期記憶 (BiLSTM) 層

説明

双方向 LSTM (BiLSTM) 層は、時系列データまたはシーケンスデータのタイムステップ間の双方向の長期的な依存関係を学習する RNN 層です。これらの依存関係は、各タイムステップで時系列全体から RNN に学習させる場合に役立ちます。

作成

構文

layer = bilstmLayer(numHiddenUnits)

layer = bilstmLayer(numHiddenUnits,Name,Value)

説明

layer = bilstmLayer(numHiddenUnits) は、双方向 LSTM 層を作成し、NumHiddenUnits プロパティを設定します。

例

layer = bilstmLayer(numHiddenUnits,Name,Value) は、1 つ以上の名前と値のペアの引数を使用して、追加の OutputMode、活性化、状態、パラメーターと初期化、学習率および正則化、および Name の各プロパティを設定します。複数の名前と値のペアの引数を指定できます。各プロパティ名を引用符で囲みます。

プロパティ

すべて展開する

BiLSTM

`NumHiddenUnits` — 隠れユニットの数
正の整数

隠れユニットの数 (隠れサイズとも呼ばれる)。正の整数として指定します。

隠れユニットの数は、タイムステップ間に層によって記憶された情報 (隠れ状態) の量に相当します。隠れ状態には、シーケンス長に関係なく、以前のすべてのタイムステップからの情報を含めることができます。隠れユニットの数が大きすぎる場合、層が学習データに対して過適合する可能性があります。

隠れ状態によって、1 回の反復の間に層で処理されるタイムステップ数が制限されることはありません。関数 trainnet および trainNetwork を使用するときにシーケンスをより小さなシーケンスに分割するには、SequenceLength 学習オプションを使用します。

この層は、NumHiddenUnits 個のチャネルをもつデータを出力します。

BiLSTMLayer オブジェクトを作成する場合、このプロパティを設定するには、対応する名前と値の引数を使用します。BiLSTMLayer オブジェクトの作成後、このプロパティは読み取り専用になります。

`OutputMode` — 出力モード
`"sequence"` (既定値) | `"last"`

出力モード。次のいずれかの値として指定します。

"sequence" — シーケンス全体を出力します。
"last" — シーケンスの最後のタイムステップを出力します。

BiLSTMLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

`HasStateInputs` — 層への状態入力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

このプロパティは読み取り専用です。

層への状態入力のフラグ。0 (false) または 1 (true) として指定します。

HasStateInputs プロパティが 0 (false) の場合、層は、入力データに対応する "in" という名前の 1 つの入力をもちます。この場合、層は HiddenState プロパティと CellState プロパティを使用して層処理を行います。

HasStateInputs プロパティが 1 (true) の場合、層は、それぞれ入力データ、隠れ状態、およびセル状態に対応する "in"、"hidden"、および "cell" という名前の 3 つの入力をもちます。この場合、層はこれらの入力に渡された値を使用して層処理を行います。HasStateInputs が 1 (true) の場合、HiddenState プロパティと CellState プロパティは空でなければなりません。

`HasStateOutputs` — 層からの状態出力のフラグ
`0` (`false`) (既定値) | `1` (`true`)

このプロパティは読み取り専用です。

層からの状態出力のフラグ。0 (false) または 1 (true) として指定します。

HasStateOutputs プロパティが 0 (false) の場合、層は、出力データに対応する "out" という名前の 1 つの出力をもちます。

HasStateOutputs プロパティが 1 (true) の場合、層は、それぞれ出力データ、隠れ状態、およびセル状態に対応する "out"、"hidden"、および "cell" という名前の 3 つの出力をもちます。この場合、層は、計算した状態値も出力します。

`InputSize` — 入力サイズ
`"auto"` (既定値) | 正の整数

このプロパティは読み取り専用です。

入力サイズ。正の整数または "auto" として指定します。InputSize が "auto" の場合、学習時に入力サイズが自動的に割り当てられます。

InputSize が "auto" の場合、BiLSTMLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

データ型: double | char | string

活性化

`StateActivationFunction` — セル状態と隠れ状態を更新する活性化関数
`"tanh"` (既定値) | `"softsign"`

このプロパティは読み取り専用です。

セル状態と隠れ状態を更新する活性化関数。次のいずれかの値として指定します。

"tanh" — 双曲線正接関数 (tanh) を使用します。
"softsign" — ソフトサイン関数 $softsign (x) = \frac{x}{1 + | x |}$ を使用します。

層は、セル状態と隠れ状態を更新する計算における関数 $σ_{c}$ としてこのオプションを使用します。LSTM 層が活性化関数をどのように使用するかの詳細については、長短期記憶層を参照してください。

BiLSTMLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

`GateActivationFunction` — ゲートに適用する活性化関数
`"sigmoid"` (既定値) | `"hard-sigmoid"`

ゲートに適用する活性化関数。次のいずれかの値として指定します。

"sigmoid" — シグモイド関数 $σ (x) = {(1 + e^{- x})}^{- 1}$ を使用します。
"hard-sigmoid" — ハードシグモイド関数を使用します。

$σ (x) = {\begin{matrix} \begin{array}{l} 0 \\ 0.2 x + 0.5 \\ 1 \end{array} & \begin{array}{l} if x < - 2.5 \\ if - 2.5 \leq x \leq 2.5 \\ if x > 2.5 \end{array} \end{matrix} .$

層は、層のゲートの計算における関数 $σ_{g}$ としてこのオプションを使用します。

BiLSTMLayer オブジェクトは、このプロパティを文字ベクトルとして格納します。

状態

`CellState` — セル状態
数値ベクトル

層処理で使用されるセル状態。2*NumHiddenUnits 行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときのセル状態の初期値に対応します。

このプロパティを手動で設定した後に関数 resetState を呼び出すと、セル状態がこの値に設定されます。

HasStateInputs が true の場合、CellState プロパティは空でなければなりません。

データ型: single | double

`HiddenState` — 隠れ状態
数値ベクトル

層処理で使用される隠れ状態。2*NumHiddenUnits 行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときの隠れ状態の初期値に対応します。

このプロパティを手動で設定した後に関数 resetState を呼び出すと、隠れ状態がこの値に設定されます。

HasStateInputs が true の場合、HiddenState プロパティは空でなければなりません。

データ型: single | double

パラメーターと初期化

`InputWeightsInitializer` — 入力の重みを初期化する関数
`'glorot'` (既定値) | `'he'` | `'orthogonal'` | `'narrow-normal'` | `'zeros'` | `'ones'` | 関数ハンドル

入力の重みを初期化する関数。次のいずれかに指定します。

'glorot' – Glorot 初期化子 [1] (Xavier 初期化子とも呼ばれる) を使用して入力の重みを初期化します。Glorot 初期化子は、平均 0、分散 2/(InputSize + numOut) の一様分布から個別にサンプリングを行います。ここで、numOut = 8*NumHiddenUnits です。
'he' – He 初期化子 [2] を使用して入力の重みを初期化します。He 初期化子は、平均 0、分散 2/InputSize の正規分布からサンプリングを行います。
'orthogonal' – 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[3]
'narrow-normal' – 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、入力の重みを初期化します。
'zeros' – 0 で入力の重みを初期化します。
'ones' – 1 で入力の重みを初期化します。
関数ハンドル – カスタム関数で入力の重みを初期化します。関数ハンドルを指定する場合、関数は weights = func(sz) という形式でなければなりません。ここで、sz は入力の重みのサイズです。

この層では、InputWeights プロパティが空の場合にのみ入力の重みが初期化されます。

データ型: char | string | function_handle

`RecurrentWeightsInitializer` — 再帰重みを初期化する関数
`'orthogonal'` (既定値) | `'glorot'` | `'he'` | `'narrow-normal'` | `'zeros'` | `'ones'` | 関数ハンドル

再帰重みを初期化する関数。次のいずれかに指定します。

'orthogonal' – 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[3]
'glorot' – Glorot 初期化子 [1] (Xavier 初期化子とも呼ばれる) を使用して再帰重みを初期化します。Glorot 初期化子は、平均 0、分散 2/(numIn + numOut) の一様分布から個別にサンプリングを行います。ここで、numIn = NumHiddenUnits および numOut = 8*NumHiddenUnits です。
'he' – He 初期化子 [2] を使用して再帰重みを初期化します。He 初期化子は、平均 0、分散 2/NumHiddenUnits の正規分布からサンプリングを行います。
'narrow-normal' – 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、再帰重みを初期化します。
'zeros' – 0 で再帰重みを初期化します。
'ones' – 1 で再帰重みを初期化します。
関数ハンドル – カスタム関数で再帰重みを初期化します。関数ハンドルを指定する場合、関数は weights = func(sz) という形式でなければなりません。ここで、sz は再帰重みのサイズです。

この層では、RecurrentWeights プロパティが空の場合にのみ再帰重みが初期化されます。

データ型: char | string | function_handle

`BiasInitializer` — バイアスを初期化する関数
`"unit-forget-gate"` (既定値) | `"narrow-normal"` | `"ones"` | 関数ハンドル

バイアスを初期化する関数。次のいずれかの値として指定します。

"unit-forget-gate" — 忘却ゲートバイアスを 1 で初期化し、残りのバイアスを 0 で初期化します。
"narrow-normal" — 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、バイアスを初期化します。
"ones" — 1 でバイアスを初期化します。
関数ハンドル — カスタム関数でバイアスを初期化します。関数ハンドルを指定する場合、関数は bias = func(sz) という形式でなければなりません。ここで、sz はバイアスのサイズです。

この層では、Bias プロパティが空の場合にのみバイアスが初期化されます。

BiLSTMLayer オブジェクトは、このプロパティを文字ベクトルまたは関数ハンドルとして格納します。

データ型: char | string | function_handle

`InputWeights` — 入力重み
`[]` (既定値) | 行列

入力の重み。行列として指定します。

この入力重み行列は、双方向 LSTM 層にあるコンポーネント (ゲート) の 8 個の入力重み行列の連結です。8 個の行列は、以下の順で垂直に連結されています。

入力ゲート (順方向)
忘却ゲート (順方向)
セル候補 (順方向)
出力ゲート (順方向)
入力ゲート (逆方向)
忘却ゲート (逆方向)
セル候補 (逆方向)
出力ゲート (逆方向)

入力の重みは学習可能なパラメーターです。関数 trainnet または trainNetwork によってニューラルネットワークに学習させる際、InputWeights が空ではない場合、ソフトウェアは InputWeights プロパティを初期値として使用します。InputWeights が空の場合、InputWeightsInitializer によって指定された初期化子が使用されます。

学習時、InputWeights は 8*NumHiddenUnits 行 InputSize 列の行列です。

データ型: single | double

`RecurrentWeights` — 再帰重み
`[]` (既定値) | 行列

再帰重み。行列として指定します。

この再帰重み行列は、双方向 LSTM 層にあるコンポーネント (ゲート) の 8 個の再帰重み行列の連結です。8 個の行列は、以下の順で垂直に連結されています。

入力ゲート (順方向)
忘却ゲート (順方向)
セル候補 (順方向)
出力ゲート (順方向)
入力ゲート (逆方向)
忘却ゲート (逆方向)
セル候補 (逆方向)
出力ゲート (逆方向)

再帰重みは学習可能なパラメーターです。関数 trainnet または trainNetwork によって RNN に学習させる際、RecurrentWeights が空ではない場合、ソフトウェアは RecurrentWeights プロパティを初期値として使用します。RecurrentWeights が空の場合、RecurrentWeightsInitializer によって指定された初期化子が使用されます。

学習時、RecurrentWeights は 8*NumHiddenUnits 行 NumHiddenUnits 列の行列です。

データ型: single | double

`Bias` — 層のバイアス
`[]` (既定値) | 数値ベクトル

層のバイアス。数値ベクトルとして指定します。

このバイアスベクトルは、双方向 LSTM 層にあるコンポーネント (ゲート) の 8 個のバイアスベクトルの連結です。8 個のベクトルは、以下の順で垂直に連結されています。

入力ゲート (順方向)
忘却ゲート (順方向)
セル候補 (順方向)
出力ゲート (順方向)
入力ゲート (逆方向)
忘却ゲート (逆方向)
セル候補 (逆方向)
出力ゲート (逆方向)

層のバイアスは学習可能なパラメーターです。ニューラルネットワークの学習時に、Bias が空ではない場合、関数 trainnet および trainNetwork は Bias プロパティを初期値として使用します。Bias が空の場合、ソフトウェアは BiasInitializer によって指定された初期化子を使用します。

学習時、Bias は 8*NumHiddenUnits 行 1 列の数値ベクトルです。

データ型: single | double

学習率および正則化

`InputWeightsLearnRateFactor` — 入力の重みの学習率係数
1 (既定値) | 数値スカラー | 1 行 8 列の数値ベクトル

入力の重みの学習率係数。数値スカラーまたは 1 行 8 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、層の入力の重みの学習率係数が決定されます。たとえば、InputWeightsLearnRateFactor が 2 の場合、層の入力の重みの学習率係数は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定した設定に基づいて、グローバル学習率が決定されます。

InputWeights に含まれる 4 つの個々の行列について学習率係数の値を制御するには、1 行 8 列のベクトルを割り当てます。ここで、エントリは以下の学習率係数に対応します。

入力ゲート (順方向)
忘却ゲート (順方向)
セル候補 (順方向)
出力ゲート (順方向)
入力ゲート (逆方向)
忘却ゲート (逆方向)
セル候補 (逆方向)
出力ゲート (逆方向)