長短期記憶ニューラルネットワーク

このトピックでは、長短期記憶 (LSTM) ニューラルネットワークを使用して、分類タスクと回帰タスク用のシーケンスデータおよび時系列データを扱う方法を説明します。LSTM ニューラルネットワークを使用してシーケンスデータを分類する方法を示す例については、深層学習を使用したシーケンスの分類を参照してください。

LSTM ニューラルネットワークは、再帰型ニューラルネットワーク (RNN) の一種で、シーケンスデータのタイムステップ間の長期的な依存関係を学習できます。

LSTM ニューラルネットワークアーキテクチャ

LSTM ニューラルネットワークの中核コンポーネントはシーケンス入力層と LSTM 層です。"シーケンス入力層" は、ニューラルネットワークにシーケンスデータまたは時系列データを入力します。"LSTM 層" は、シーケンスデータのタイムステップ間の長期的な依存関係を学習します。

次の図は、分類用のシンプルな LSTM ニューラルネットワークのアーキテクチャを示しています。このニューラルネットワークはシーケンス入力層で始まり、その後に LSTM 層が続きます。クラスラベルを予測するために、このニューラルネットワークは全結合層とソフトマックス層で終わります。

Diagram illustrating the architecture of a simple LSTM neural network for classification.

次の図は、回帰用のシンプルな LSTM ニューラルネットワークのアーキテクチャを示しています。このニューラルネットワークはシーケンス入力層で始まり、その後に LSTM 層が続きます。このニューラルネットワークは全結合層で終わります。

Diagram illustrating the architecture of a simple LSTM neural network for regression.

分類用の LSTM ネットワーク

ライブスクリプトを開く

sequence-to-label 分類用の LSTM ネットワークを作成するには、シーケンス入力層、LSTM 層、全結合層、およびソフトマックス層を含む層配列を作成します。

シーケンス入力層のサイズを入力データの特徴の数に設定します。全結合層のサイズをクラスの数に設定します。シーケンス長を指定する必要はありません。

LSTM 層では、隠れユニットの数と出力モード "last" を指定します。

numFeatures = 12;
numHiddenUnits = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,OutputMode="last")
    fullyConnectedLayer(numClasses)
    softmaxLayer];

sequence-to-label 分類について LSTM ネットワークに学習をさせ、新しいデータを分類する方法の例については、深層学習を使用したシーケンスの分類を参照してください。

sequence-to-sequence 分類用の LSTM ネットワークを作成するには、sequence-to-label 分類の場合と同じアーキテクチャを使用しますが、LSTM 層の出力モードを "sequence" に設定します。

numFeatures = 12;
numHiddenUnits = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,OutputMode="sequence")
    fullyConnectedLayer(numClasses)
    softmaxLayer];

回帰用の LSTM ネットワーク

ライブスクリプトを開く

sequence-to-one 回帰用の LSTM ネットワークを作成するには、シーケンス入力層、LSTM 層、および全結合層を含む層配列を作成します。

シーケンス入力層のサイズを入力データの特徴の数に設定します。全結合層のサイズを応答の数に設定します。シーケンス長を指定する必要はありません。

LSTM 層では、隠れユニットの数と出力モード "last" を指定します。

numFeatures = 12;
numHiddenUnits = 125;
numResponses = 1;

layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,OutputMode="last")
    fullyConnectedLayer(numResponses)];

sequence-to-sequence 回帰用の LSTM ネットワークを作成するには、sequence-to-one 回帰の場合と同じアーキテクチャを使用しますが、LSTM 層の出力モードを "sequence" に設定します。

numFeatures = 12;
numHiddenUnits = 125;
numResponses = 1;

layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,OutputMode="sequence")
    fullyConnectedLayer(numResponses)];

sequence-to-sequence 回帰について LSTM ネットワークに学習をさせて、新しいデータを予測する方法の例については、深層学習を使用した sequence-to-sequence 回帰を参照してください。

ビデオ分類ネットワーク

ライブスクリプトを開く

ビデオデータや医用画像などのイメージのシーケンスを含むデータ用の深層学習ネットワークを作成するには、シーケンス入力層を使用してイメージシーケンス入力を指定します。

層を指定して、dlnetwork オブジェクトを作成します。

inputSize = [64 64 3];
filterSize = 5;
numFilters = 20;
numHiddenUnits = 200;
numClasses = 10;

layers = [
    sequenceInputLayer(inputSize)
    convolution2dLayer(filterSize,numFilters)
    batchNormalizationLayer
    reluLayer
    lstmLayer(numHiddenUnits,OutputMode="last")
    fullyConnectedLayer(numClasses)
    softmaxLayer];

net = dlnetwork(layers);

ビデオの分類用の深層学習ネットワークに学習させる方法を示す例については、深層学習を使用したビデオの分類を参照してください。

深い LSTM ネットワーク

ライブスクリプトを開く

出力モードが "sequence" の追加の LSTM 層を LSTM 層の前に挿入すると、LSTM ネットワークを深くできます。過適合を防止するために、LSTM 層の後にドロップアウト層を挿入できます。

sequence-to-label 分類ネットワークでは、最後の LSTM 層の出力モードは "last" でなければなりません。

numFeatures = 12;
numHiddenUnits1 = 125;
numHiddenUnits2 = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits1,OutputMode="sequence")
    dropoutLayer(0.2)
    lstmLayer(numHiddenUnits2,OutputMode="last")
    dropoutLayer(0.2)
    fullyConnectedLayer(numClasses)
    softmaxLayer];

sequence-to-sequence 分類ネットワークでは、最後の LSTM 層の出力モードは "sequence" でなければなりません。

numFeatures = 12;
numHiddenUnits1 = 125;
numHiddenUnits2 = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits1,OutputMode="sequence")
    dropoutLayer(0.2)
    lstmLayer(numHiddenUnits2,OutputMode="sequence")
    dropoutLayer(0.2)
    fullyConnectedLayer(numClasses)
    softmaxLayer];

層

層	説明
`sequenceInputLayer`	シーケンス入力層は、シーケンスデータをニューラルネットワークに入力し、データ正規化を適用します。
`lstmLayer`	LSTM 層は、時系列データおよびシーケンスデータのタイムステップ間の長期的な依存関係を学習する RNN 層です。
`bilstmLayer`	双方向 LSTM (BiLSTM) 層は、時系列データまたはシーケンスデータのタイムステップ間の双方向の長期的な依存関係を学習する RNN 層です。これらの依存関係は、各タイムステップで時系列全体から RNN に学習させる場合に役立ちます。
`gruLayer`	GRU 層は、時系列データおよびシーケンスデータのタイムステップ間の依存関係を学習する RNN 層です。
`convolution1dLayer`	1 次元畳み込み層は、1 次元入力にスライディング畳み込みフィルターを適用します。
`maxPooling1dLayer`	1 次元最大プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の最大値を計算することによって、ダウンサンプリングを実行します。
`averagePooling1dLayer`	1 次元平均プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の平均値を計算することによって、ダウンサンプリングを実行します。
`globalMaxPooling1dLayer`	1 次元グローバル最大プーリング層は、入力の時間次元または空間次元の最大値を出力することによって、ダウンサンプリングを実行します。
`flattenLayer`	フラット化層は、入力の空間次元を折りたたんでチャネルの次元にします。
`wordEmbeddingLayer` (Text Analytics Toolbox)	単語埋め込み層は、単語インデックスをベクトルにマッピングします。

分類、予測および予想

新しいデータに対して予測を行うには、関数 minibatchpredict を使用します。予測された分類スコアをラベルに変換するには、scores2label を使用します。

LSTM ニューラルネットワークは予測間のニューラルネットワークの状態を記憶できます。RNN の状態は、時系列全体が事前に存在しない場合や長い時系列について複数の予測が必要な場合に役に立ちます。

時系列の一部について予測して分類し、RNN の状態を更新するには、関数 predict を使用し、ニューラルネットワークの状態を返して更新します。予測間の RNN の状態をリセットするには、resetState を使用します。

シーケンスの将来のタイムステップを予測する方法を示す例については、深層学習を使用した時系列予測を参照してください。

シーケンスのパディングと切り捨て

LSTM ニューラルネットワークは、シーケンス長が異なる入力データをサポートしています。ニューラルネットワークにデータが渡されるとき、各ミニバッチのすべてのシーケンスが指定された長さになるように、パディングまたは切り捨てが行われます。シーケンス長とシーケンスのパディングに使用する値は、SequenceLength と SequencePaddingValue の学習オプションを使用して指定できます。

ニューラルネットワークの学習後、関数 minibatchpredict の使用時に同じミニバッチサイズとパディングオプションを使用できます。

長さでのシーケンスの並べ替え

シーケンスのパディングまたは切り捨ての際に、パディングまたは破棄するデータの量を減らすには、シーケンス長でデータを並べ替えてみてください。最初の次元がタイムステップに対応するシーケンスの場合、シーケンス長でデータを並べ替えるには、まず cellfun を使用してすべてのシーケンスに size(X,1) を適用することによって各シーケンスの列数を取得します。次に、sort を使用してシーケンス長を並べ替え、2 番目の出力を使用して元のシーケンスを並べ替えます。

sequenceLengths = cellfun(@(X) size(X,1), XTrain);
[sequenceLengthsSorted,idx] = sort(sequenceLengths);
XTrain = XTrain(idx);

Two plots bar charts representing sequence data. The x axis is labeled "Length" and the y axis is labeled "Sequence". The chart on the left has title "Unsorted Data" and shows the original sequence lengths. The chart on the right has title "Sorted Data" and shows that the sequences are sorted by length in ascending order.

シーケンスのパディング

SequenceLength 学習オプションまたは予測オプションが "longest" の場合、ソフトウェアは、ミニバッチのすべてのシーケンスがそのミニバッチにある最長のシーケンスと同じ長さになるようにシーケンスをパディングします。このオプションは既定値です。

シーケンスの切り捨て

SequenceLength 学習オプションまたは予測オプションが "shortest" の場合、ソフトウェアは、ミニバッチのすべてのシーケンスがそのミニバッチにある最短のシーケンスと同じ長さになるようにシーケンスを切り捨てます。シーケンスの残りのデータは破棄されます。

パディングの方向の指定

パディングと切り捨ての位置は、学習、分類、および予測の精度に影響する可能性があります。SequencePaddingDirection 学習オプションを "left" または "right" に設定してみて、どちらがデータに適しているかを確認します。

再帰層は 1 タイムステップずつシーケンスデータを処理するため、再帰層の OutputMode プロパティが "last" の場合、最後のタイムステップでパディングを行うと層の出力に悪影響を与える可能性があります。シーケンスデータの左側に対してパディングまたは切り捨てを行うには、名前と値の引数 SequencePaddingDirection を "left" に設定します。

sequence-to-sequence ニューラルネットワークの場合 (各再帰層について OutputMode プロパティが "sequence" である場合)、最初のタイムステップでパディングを行うと、それ以前のタイムステップの予測に悪影響を与える可能性があります。シーケンスデータの右側に対してパディングまたは切り捨てを行うには、名前と値の引数 SequencePaddingDirection を "right" に設定します。

シーケンスデータの正規化

ゼロ中心正規化を使用して学習時に学習データを自動的に再センタリングするには、sequenceInputLayer の Normalization オプションを "zerocenter" に設定します。または、まず、すべてのシーケンスについて特徴あたりの平均値と標準偏差を計算することによって、シーケンスデータを正規化できます。次に、各学習観測値について、平均値を減算し、標準偏差で除算します。

mu = mean([XTrain{:}],1);
sigma = std([XTrain{:}],0,1);
XTrain = cellfun(@(X) (X-mu)./sigma,XTrain,UniformOutput=false);

メモリ外のデータ

データが大きすぎてメモリに収まらない場合や、データのバッチを読み取る際に特定の演算を実行する場合、シーケンスデータ、時系列データ、および信号データについてデータストアを使用します。

詳細は、メモリ外のシーケンスデータを使用したネットワークの学習および深層学習を使用したメモリ外のテキストデータの分類を参照してください。

可視化

関数 minibatchpredict を使用し、引数 Outputs を設定して活性化を抽出することによって、シーケンスデータと時系列データから LSTM ニューラルネットワークによって学習された特徴を調べて可視化します。詳細については、LSTM ネットワークの活性化の可視化を参照してください。

LSTM 層アーキテクチャ

次の図は、入力 $x$ と出力 $y$ をもつ LSTM 層を T 個のタイムステップで通過するデータの流れを示したものです。この図で、 $h_{t}$ は、出力 ("隠れ状態" とも呼ばれる) を表し、 $c_{t}$ はタイムステップ t での "セル状態" を表しています。

層がシーケンス全体を出力する場合、層は $y_{1}$ , …, $y_{T}$ を出力します。これは、 $h_{1}$ , …, $h_{T}$ と等価です。層が最後のタイムステップのみを出力する場合、層は $y_{T}$ を出力します。これは、 $h_{T}$ と等価です。出力内のチャネル数は、LSTM 層の隠れユニット数と一致します。

最初の LSTM 演算では、RNN の初期状態とシーケンスの最初のタイムステップを使用して、最初の出力と更新後のセル状態を計算します。タイムステップ t での演算では、RNN の現在の状態 $(c_{t - 1}, h_{t - 1})$ とシーケンスの次のタイムステップを使用して、出力と更新後のセル状態 $c_{t}$ を計算します。

層の状態は、"隠れ状態" ("出力状態" とも呼ばれる) および "セル状態" で構成されています。タイムステップ t の隠れ状態には、このタイムステップの LSTM 層の出力が含まれています。セル状態には、前のタイムステップで学習した情報が含まれています。各タイムステップで、層では情報をセル状態に追加したり、セル状態から削除したりします。その際、層では "ゲート" を使用して、これらの更新を制御します。

以下のコンポーネントは、層のセル状態および隠れ状態を制御します。

コンポーネント	目的
入力ゲート (i)	セル状態の更新レベルを制御
忘却ゲート (f)	セル状態のリセット (忘却) レベルを制御
セル候補 (g)	セル状態に情報を追加
出力ゲート (o)	隠れ状態に追加されるセル状態のレベルを制御

次の図は、タイムステップ t でのデータのフローを示しています。この図は、ゲートがセル状態や隠れ状態をどのように忘却、更新、および出力するかを示しています。

Flow diagram of cell and hidden states

LSTM 層の学習可能なパラメーターの重みは、入力の重み W (InputWeights)、再帰重み R (RecurrentWeights)、およびバイアス b (Bias) です。行列 W、R、および b はそれぞれ、各コンポーネントの入力の重み、再帰重み、およびバイアスの連結です。この層は、次の方程式に従って行列を連結します。

$W = [\begin{matrix} W_{i} \\ W_{f} \\ W_{g} \\ W_{o} \end{matrix}], R = [\begin{matrix} R_{i} \\ R_{f} \\ R_{g} \\ R_{o} \end{matrix}], b = [\begin{matrix} b_{i} \\ b_{f} \\ b_{g} \\ b_{o} \end{matrix}],$

ここで、i、f、g、および o はそれぞれ、入力ゲート、忘却ゲート、セル候補、および出力ゲートを表します。

タイムステップ t でのセル状態は次で与えられます。

$c_{t} = f_{t} ⊙ c_{t - 1} + i_{t} ⊙ g_{t},$

ここで、 $⊙$ はアダマール積 (ベクトルの要素単位の乗算) を表します。

タイムステップ t での隠れ状態は次で与えられます。

$h_{t} = o_{t} ⊙ σ_{c} (c_{t}),$

ここで、 $σ_{c}$ は状態活性化関数を表します。既定では、関数 lstmLayer は双曲線正接関数 (tanh) を使用して状態活性化関数を計算します。

次の式は、タイムステップ t におけるコンポーネントを表しています。

コンポーネント	式
入力ゲート	$i_{t} = σ_{g} (W_{i} x_{t} + R_{i} h_{t - 1} + b_{i})$
忘却ゲート	$f_{t} = σ_{g} (W_{f} x_{t} + R_{f} h_{t - 1} + b_{f})$
セル候補	$g_{t} = σ_{c} (W_{g} x_{t} + R_{g} h_{t - 1} + b_{g})$
出力ゲート	$o_{t} = σ_{g} (W_{o} x_{t} + R_{o} h_{t - 1} + b_{o})$

これらの計算では、 $σ_{g}$ はゲート活性化関数を表します。既定では、関数 lstmLayer は $σ (x) = {(1 + e^{- x})}^{- 1}$ で与えられるシグモイド関数を使用して、ゲート活性化関数を計算します。

参照

[1] Hochreiter, S., and J. Schmidhuber. "Long short-term memory." Neural computation. Vol. 9, Number 8, 1997, pp.1735–1780.

参考

長短期記憶ニューラル ネットワーク

LSTM ニューラル ネットワーク アーキテクチャ

分類用の LSTM ネットワーク

回帰用の LSTM ネットワーク

ビデオ分類ネットワーク

深い LSTM ネットワーク

層

分類、予測および予想

シーケンスのパディングと切り捨て

長さでのシーケンスの並べ替え

シーケンスのパディング

シーケンスの切り捨て

パディングの方向の指定

シーケンス データの正規化

メモリ外のデータ

可視化

LSTM 層アーキテクチャ

参照

参考

トピック

長短期記憶ニューラルネットワーク

LSTM ニューラルネットワークアーキテクチャ

シーケンスデータの正規化