このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。
TrainingOptionsRMSProp
RMSProp オプティマイザーの学習オプション
説明
学習率の情報、L2 正則化係数、ミニバッチのサイズなどの、RMSProp (平方根平均二乗伝播) オプティマイザーの学習オプション。
作成
trainingOptions
を使用し、最初の入力引数に 'rmsprop'
を指定して、TrainingOptionsRMSProp
オブジェクトを作成します。
プロパティ
プロットと表示
Plots
— ネットワークの学習中に表示するプロット
'none'
| 'training-progress'
ネットワークの学習時に表示するプロット。次のいずれかに指定します。
'none'
— 学習中にプロットを表示しません。'training-progress'
— 学習の進行状況をプロットします。プロットには、ミニバッチの損失と精度、検証の損失と精度、および学習の進行状況に関する追加情報が表示されます。プロットの右上隅には、停止ボタンがあります。そのボタンをクリックすると、学習が停止し、ネットワークの現在の状態が返されます。[学習プロットのエクスポート] をクリックすると、学習プロットをイメージまたは PDF として保存できます。学習の進行状況プロットの詳細については、深層学習における学習の進行状況の監視を参照してください。
Verbose
— 学習の進行状況の情報を表示するかどうかのインジケーター
1
(true) (既定値) | 0
(false)
コマンド ウィンドウに学習の進行状況の情報を表示するかどうかのインジケーター。1
(true) または 0
(false) として指定します。
詳細出力には次の情報が表示されます。
分類ネットワーク
フィールド | 説明 |
---|---|
Epoch | エポック数。1 エポックは、データを一巡することに対応します。 |
Iteration | 反復回数。反復は、ミニバッチに対応します。 |
Time Elapsed | 経過時間。時間、分、秒で示されます。 |
Mini-batch Accuracy | ミニバッチの分類精度。 |
Validation Accuracy | 検証データの分類精度。検証データを指定しない場合、このフィールドは表示されません。 |
Mini-batch Loss | ミニバッチの損失。出力層が ClassificationOutputLayer オブジェクトの場合、損失は、互いに排他的なクラスを含むマルチクラス分類問題の交差エントロピー損失です。 |
Validation Loss | 検証データの損失。出力層が ClassificationOutputLayer オブジェクトの場合、損失は、互いに排他的なクラスを含むマルチクラス分類問題の交差エントロピー損失です。検証データを指定しない場合、このフィールドは表示されません。 |
Base Learning Rate | 基本学習率。層の学習率係数とこの値が乗算されます。 |
回帰ネットワーク
フィールド | 説明 |
---|---|
Epoch | エポック数。1 エポックは、データを一巡することに対応します。 |
Iteration | 反復回数。反復は、ミニバッチに対応します。 |
Time Elapsed | 経過時間。時間、分、秒で示されます。 |
Mini-batch RMSE | ミニバッチの平方根平均二乗誤差 (RMSE)。 |
Validation RMSE | 検証データの RMSE。検証データを指定しない場合、このフィールドは表示されません。 |
Mini-batch Loss | ミニバッチの損失。出力層が RegressionOutputLayer オブジェクトの場合、損失は半平均二乗誤差になります。 |
Validation Loss | 検証データの損失。出力層が RegressionOutputLayer オブジェクトの場合、損失は半平均二乗誤差になります。検証データを指定しない場合、このフィールドは表示されません。 |
Base Learning Rate | 基本学習率。層の学習率係数とこの値が乗算されます。 |
学習が停止すると、詳細出力に停止の理由が表示されます。
検証データを指定するには、ValidationData
学習オプションを使用します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
| logical
VerboseFrequency
— 詳細出力の頻度
50
(既定値) | 正の整数
コマンド ウィンドウへの表示間の反復回数を示す、詳細出力の頻度。正の整数として指定します。このオプションは、Verbose
学習オプションが 1
(true) の場合にのみ効果があります。
学習中にネットワークを検証する場合、trainNetwork
でも、検証時に毎回、コマンド ウィンドウへの出力が行われます。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
ミニバッチ オプション
MaxEpochs
— エポックの最大回数
30
(既定値) | 正の整数
学習に使用するエポックの最大回数。正の整数として指定します。
反復とは、勾配降下法アルゴリズムでミニバッチを使用して損失関数の最小化を目指して実行される 1 ステップのことです。1 エポックは、データセット全体を一巡することです。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
MiniBatchSize
— ミニバッチのサイズ
128
(既定値) | 正の整数
学習の各反復で使用するミニバッチのサイズ。正の整数として指定します。ミニバッチとは、損失関数の勾配を評価し、重みを更新するために使用される学習セットのサブセットのことです。
ミニバッチのサイズによって学習標本の数が均等に分割されない場合、trainNetwork
は、各エポックの最後の完全なミニバッチに収まらない学習データを破棄します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
Shuffle
— データのシャッフルのオプション
'once'
| 'never'
| 'every-epoch'
データのシャッフルのオプション。以下のいずれかに指定します。
'once'
— 学習前に 1 回、学習データと検証データをシャッフルします。'never'
— データをシャッフルしません。'every-epoch'
— 各学習エポックの前に学習データをシャッフルし、ネットワークの各検証の前に検証データをシャッフルします。ミニバッチのサイズによって学習標本の数が均等に分割されない場合、trainNetwork
は、各エポックの最後の完全なミニバッチに収まらない学習データを破棄します。エポックごとに同じデータが破棄されるのを回避するには、Shuffle
学習オプションを'every-epoch'
に設定します。
検証
ValidationData
— 学習中の検証に使用するデータ
[]
(既定値) | データストア | table | cell 配列
学習中の検証で使用するデータ。[]
として指定するか、検証予測子と検証応答を含むデータストア、table、または cell 配列として指定します。
関数 trainNetwork
でサポートされているのと同じ形式を使用して、検証予測子と検証応答を指定できます。検証データは、データストア、table、または cell 配列 {predictors,responses}
として指定できます。ここで、predictors
には検証予測子を格納し、responses
には検証応答を格納します。
詳細については、関数 trainNetwork
の入力引数 images
、sequences
、および features
を参照してください。
学習中に、trainNetwork
は検証データの検証精度と検証損失を計算します。検証頻度を指定するには、ValidationFrequency
学習オプションを使用します。検証データを使用して、検証損失が減少しなくなったときに学習を自動的に停止することもできます。自動検証停止をオンにするには、ValidationPatience
学習オプションを使用します。
ネットワークに予測時と学習中で動作が異なる層 (ドロップアウト層など) がある場合、検証精度が学習 (ミニバッチ) 精度より高くなる可能性があります。
検証データは、Shuffle
学習オプションに従ってシャッフルされます。Shuffle
が 'every-epoch'
の場合、検証データはネットワークの各検証の前にシャッフルされます。
ValidationData
が []
の場合、学習中にネットワークが検証されません。
ValidationFrequency
— ネットワークの検証の頻度
50
(既定値) | 正の整数
反復回数で示されるネットワークの検証の頻度。正の整数として指定します。
ValidationFrequency
の値は、検証メトリクスの評価間の反復回数です。検証データを指定するには、ValidationData
学習オプションを使用します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
ValidationPatience
— 検証停止までの待機回数
Inf
(既定値) | 正の整数
ネットワークの学習の検証を停止するまでの待機回数。正の整数または Inf
として指定します。
ValidationPatience
は、ネットワークの学習が停止するまでに、検証セットでの損失が前の最小損失以上になることが許容される回数を指定します。ValidationPatience
が Inf
の場合、検証損失の値によって学習が早期に停止することはありません。
返されるネットワークは、OutputNetwork
学習オプションによって異なります。検証損失が最小のネットワークを返すようにするには、OutputNetwork
学習オプションを "best-validation-loss"
に設定します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
OutputNetwork
— 学習完了時に返すネットワーク
'last-iteration'
(既定値) | 'best-validation-loss'
学習完了時に返すネットワーク。次のいずれかとして指定します。
'last-iteration'
– 最後の学習反復に対応するネットワークを返す。'best-validation-loss'
– 検証損失が最小となる学習反復に対応するネットワークを返す。このオプションを使用するには、ValidationData
学習オプションを指定しなければなりません。
ソルバー オプション
InitialLearnRate
— 初期学習率
0.001
(既定値) | 正のスカラー
学習に使用される初期学習率。正のスカラーとして指定します。
学習率が小さすぎる場合、学習に時間がかかることがあります。学習率が大きすぎる場合、学習結果が準最適になったり、発散したりすることがあります。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
LearnRateScheduleSettings
— 学習率のスケジュールの設定
構造体
この プロパティ は読み取り専用です。
学習率のスケジュールの設定。構造体として指定します。LearnRateScheduleSettings
にはフィールド Method
があります。このフィールドは、学習率を調整するメソッドのタイプを指定します。以下のメソッドを指定できます。
'none'
— 学習率は学習全体を通じて一定です。'piecewise'
— 学習中に学習率を定期的に下げます。
Method
が 'piecewise'
の場合、LearnRateScheduleSettings
にさらに 2 つのフィールドが含まれます。
DropRateFactor
— 学習中の学習率を低下させる乗法係数DropPeriod
— 学習中の各学習率調整の合間で通過するエポック数
学習率スケジュールの設定は、trainingOptions
を使用して指定します。
データ型: struct
L2Regularization
— L2 正則化の係数
0.0001
(既定値) | 非負のスカラー
L2 正則化 (重み減衰) の係数。非負のスカラーとして指定します。詳細については、L2 正則化を参照してください。
学習可能なパラメーターのあるネットワーク層に対して L2 正則化の乗数を指定できます。詳細については、畳み込み層と全結合層のパラメーターの設定を参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
SquaredGradientDecayFactor
— 勾配の二乗の移動平均の減衰率
0.9
(既定値) | 1
未満の非負のスカラー
RMSProp ソルバーの勾配の二乗の移動平均の減衰率。1
未満の非負のスカラーとして指定します。
減衰率の一般的な値は 0.9
、0.99
、および 0.999
であり、平均化の長さとしては 10
回、100
回、および 1000
回のパラメーター更新にそれぞれ対応しています。
詳細については、RMSPropを参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
Epsilon
— 分母のオフセット
1e-8
(既定値) | 正のスカラー
RMSProp ソルバーの分母のオフセット。正のスカラーとして指定します。
ソルバーは、ネットワーク パラメーターの更新時に分母にオフセットを追加して、ゼロ除算を回避します。ほとんどのタスクにおいて、既定値で良い結果が得られます。
さまざまなソルバーの詳細については、RMSPropを参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
ResetInputNormalization
— 入力層の正規化をリセットするオプション
1
(true) (既定値) | 0
(false)
入力層の正規化をリセットするオプション。次のいずれかに指定します。
1
(true) — 入力層の正規化統計量をリセットし、学習時に再計算します。0
(false) — 正規化統計量が空の場合、学習時に計算します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
| logical
BatchNormalizationStatistics
— バッチ正規化層の統計量を評価するモード
'population'
(既定値) | 'moving'
バッチ正規化層の統計量を評価するモード。次のいずれかとして指定します。
'population'
– 母集団の統計量を使用します。学習終了後に学習データが再度渡され、その結果得られる平均と分散を使用して最終的な統計量が決定されます。'moving'
– 学習中、以下の更新ステップで与えられる実行時推定を使用して統計量を近似します。ここで、 と はそれぞれ更新後の平均と分散、 と はそれぞれ平均と分散の減衰値、 と はそれぞれ層入力の平均と分散、 と はそれぞれ移動平均と分散の最新値を表します。学習終了後、最後に得られた移動平均と分散の値が使用されます。このオプションは、CPU および単一の GPU による学習のみをサポートします。
勾配クリップ
GradientThreshold
— 勾配のしきい値
Inf
(既定値) | 正のスカラー
勾配のしきい値。Inf
または正のスカラーとして指定します。勾配が GradientThreshold
の値を超えた場合、勾配は GradientThresholdMethod
学習オプションに応じてクリップされます。
詳細については、勾配クリップを参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
GradientThresholdMethod
— 勾配しきい値法
'l2norm'
(既定値) | 'global-l2norm'
| 'absolute-value'
勾配のしきい値を超えた勾配の値をクリップするために使用する勾配しきい値法。次のいずれかに指定します。
'l2norm'
— 学習可能なパラメーターの勾配の L2 ノルムがGradientThreshold
より大きい場合は、L2 ノルムがGradientThreshold
に等しくなるように勾配をスケーリングします。'global-l2norm'
— グローバル L2 ノルム L がGradientThreshold
より大きい場合は、すべての勾配をGradientThreshold/
L 倍にスケーリングします。グローバル L2 ノルムでは、すべての学習可能なパラメーターが考慮されます。'absolute-value'
— 学習可能なパラメーターの勾配に含まれる個々の偏微分の絶対値がGradientThreshold
より大きい場合、偏微分の符号を維持したまま、大きさがGradientThreshold
に等しくなるように偏微分をスケーリングします。
詳細については、勾配クリップを参照してください。
シーケンス オプション
SequenceLength
— シーケンスのパディングまたは切り捨てを行うオプション
"longest"
(既定値) | "shortest"
| 正の整数
入力シーケンスのパディング、切り捨て、または分割を行うオプション。次のいずれかに指定します。
"longest"
— 各ミニバッチで、最長のシーケンスと同じ長さになるようにシーケンスのパディングを行います。このオプションを使用するとデータは破棄されませんが、パディングによってネットワークにノイズが生じることがあります。"shortest"
— 各ミニバッチで、最短のシーケンスと同じ長さになるようにシーケンスの切り捨てを行います。このオプションを使用するとパディングは追加されませんが、データが破棄されます。正の整数 — 各ミニバッチについて、そのミニバッチ内で最も長いシーケンスに合わせてシーケンスをパディングした後、指定した長さのより小さいシーケンスに分割します。分割が発生すると、追加のミニバッチが作成されます。指定したシーケンス長によってデータのシーケンスを均等に分割できない場合、最後のシーケンスを含むミニバッチの長さは指定した長さより短くなります。シーケンス全体がメモリに収まらない場合は、このオプションを使用します。または、
MiniBatchSize
オプションをより小さい値に設定して、ミニバッチごとのシーケンス数を減らしてみます。
入力シーケンスのパディング、切り捨て、および分割の効果の詳細は、シーケンスのパディング、切り捨て、および分割を参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
| char
| string
SequencePaddingDirection
— パディングまたは切り捨ての方向
"right"
(既定値) | "left"
パディングまたは切り捨ての方向。次のいずれかに指定します。
"right"
— シーケンスの右側に対してパディングまたは切り捨てを行います。シーケンスは同じタイム ステップで始まり、シーケンスの末尾に対して切り捨てまたはパディングの追加が行われます。"left"
— シーケンスの左側に対してパディングまたは切り捨てを行います。シーケンスが同じタイム ステップで終わるように、シーケンスの先頭に対して切り捨てまたはパディングの追加が行われます。
再帰層は 1 タイム ステップずつシーケンス データを処理するため、再帰層の OutputMode
プロパティが 'last'
の場合、最後のタイム ステップでパディングを行うと層の出力に悪影響を与える可能性があります。シーケンス データの左側に対してパディングまたは切り捨てを行うには、SequencePaddingDirection
オプションを "left"
に設定します。
sequence-to-sequence ネットワークの場合 (各再帰層について OutputMode
プロパティが 'sequence'
である場合)、最初のタイム ステップでパティングを行うと、それ以前のタイム ステップの予測に悪影響を与える可能性があります。シーケンスの右側に対してパディングまたは切り捨てを行うには、SequencePaddingDirection
オプションを "right"
に設定します。
入力シーケンスのパディング、切り捨て、および分割の効果の詳細は、シーケンスのパディング、切り捨て、および分割を参照してください。
SequencePaddingValue
— シーケンスをパディングする値
0
(既定値) | スカラー
入力シーケンスをパディングする値。スカラーとして指定します。
このオプションは、SequenceLength
が "longest"
または正の整数の場合にのみ有効です。ネットワーク全体にエラーが伝播される可能性があるため、NaN
でシーケンスをパディングしないでください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
ハードウェア オプション
ExecutionEnvironment
— ネットワークの学習用のハードウェア リソース
'auto'
| 'cpu'
| 'gpu'
| 'multi-gpu'
| 'parallel'
ネットワークの学習用のハードウェア リソース。次のいずれかに指定します。
'auto'
— 利用可能な場合、GPU を使用します。そうでない場合、CPU を使用します。'cpu'
— CPU を使用します。'gpu'
— GPU を使用します。'multi-gpu'
— 既定のクラスター プロファイルに基づいてローカルの並列プールを使用して、1 つのマシンで複数の GPU を使用します。現在の並列プールがない場合、使用可能な GPU の数と等しいプール サイズの並列プールが起動されます。'parallel'
— 既定のクラスター プロファイルに基づいてローカルまたはリモートの並列プールを使用します。現在の並列プールがない場合、既定のクラスター プロファイルを使用して 1 つのプールが起動されます。プールから GPU にアクセスできる場合、固有の GPU を持つワーカーのみが学習計算を実行します。プールに GPU がない場合、代わりに使用可能なすべての CPU ワーカーで学習が実行されます。
さまざまな実行環境をどのような場合に使用するかの詳細は、Scale Up Deep Learning in Parallel, on GPUs, and in the Cloudを参照してください。
'gpu'
、'multi-gpu'
、および 'parallel'
のオプションを使用するには、Parallel Computing Toolbox™ が必要です。深層学習に GPU を使用するには、サポートされている GPU デバイスもなければなりません。サポートされているデバイスについては、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。これらのいずれかのオプションの選択時に Parallel Computing Toolbox または適切な GPU を利用できない場合、エラーが返されます。
並列学習の実行時に性能の改善を確認するには、MiniBatchSize
および InitialLearnRate
学習オプションを GPU の数でスケール アップしてみてください。
'multi-gpu'
オプションと 'parallel'
オプションは、状態パラメーターをもつカスタム層や学習時にステートフルである組み込みの層を含むネットワークをサポートしていません。次に例を示します。
SequenceLength
学習オプションが正の整数の場合のLSTMLayer
オブジェクト、BiLSTMLayer
オブジェクト、GRULayer
オブジェクトなどの再帰層BatchNormalizationStatistics
学習オプションが'moving'
に設定されている場合のBatchNormalizationLayer
オブジェクト
WorkerLoad
— 並列ワーカーの負荷分割
0
から 1
までのスカラー | 正の整数 | 数値ベクトル
GPU 間または CPU 間での並列ワーカーの負荷分割。次のいずれかとして指定します。
0
から1
までのスカラー — ネットワーク学習計算に使用する各マシンのワーカーの割合。バックグラウンド ディスパッチを有効にしたミニバッチ データストアのデータを使用してネットワークの学習を行う場合、残りのワーカーはバックグラウンドでデータを取得して処理します。正の整数 — ネットワーク学習計算に使用する各マシンのワーカー数。バックグラウンド ディスパッチを有効にしたミニバッチ データストアのデータを使用してネットワークの学習を行う場合、残りのワーカーはバックグラウンドでデータを取得して処理します。
数値ベクトル — 並列プール内の各ワーカーのネットワーク学習の負荷。ベクトル
W
の場合、ワーカーi
はW(i)/sum(W)
の割合の作業 (ミニバッチあたりの例の数) を取得します。バックグラウンド ディスパッチを有効にしたミニバッチ データストアのデータを使用してネットワークの学習を行う場合、ワーカーの負荷を 0 にすることで、そのワーカーをバックグラウンドでのデータ取得に使用できます。指定するベクトルには、並列プール内のワーカーごとに 1 つの値が含まれていなければなりません。
並列プールから GPU にアクセスできる場合、固有の GPU を持たないワーカーは学習計算に使用されません。GPU を持つプールの場合、既定では、固有の GPU を持つすべてのワーカーを学習計算に使用し、残りのワーカーをバックグラウンド ディスパッチに使用します。プールから GPU にアクセスできず、CPU を学習に使用する場合、既定では、マシンあたり 1 つのワーカーをバックグラウンド データ ディスパッチに使用します。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
DispatchInBackground
— バックグラウンド ディスパッチを有効にするフラグ
0
(false) (既定値) | 1
(true)
データストアから学習データを読み取るためにバックグラウンド ディスパッチ (非同期事前取得キュー) を有効にするフラグ。0
(false) または 1
(true) として指定します。バックグラウンド ディスパッチには Parallel Computing Toolbox が必要です。
DispatchInBackground
は、分割可能なデータストアでのみサポートされます。詳細については、並列学習およびバックグラウンド ディスパッチへのデータストアの使用を参照してください。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
チェックポイント
CheckpointPath
— チェックポイント ネットワークの保存用のパス
""
(既定値) | 文字ベクトル
チェックポイント ネットワークの保存用のパス。文字ベクトルまたは string スカラーとして指定します。
パスを指定しない (既定の
""
を使用する) 場合、チェックポイント ネットワークは保存されません。パスを指定すると、
trainNetwork
によってこのパスにチェックポイント ネットワークが保存され、各ネットワークに一意の名前が割り当てられます。その後、いずれかのチェックポイント ネットワークを読み込み、そのネットワークから学習を再開できます。フォルダーが存在していない場合、チェックポイント ネットワークを保存するパスを指定する前に、まずフォルダーを作成しなければなりません。指定したパスが存在していない場合、
trainingOptions
はエラーを返します。
CheckpointFrequency
オプションおよび CheckpointFrequencyUnit
オプションは、チェックポイント ネットワークを保存する頻度を指定します。
ネットワーク チェックポイントの保存の詳細は、チェックポイント ネットワークの保存と学習の再開を参照してください。
データ型: char
| string
CheckpointFrequency
— チェックポイント ネットワークを保存する頻度
1
(既定値) | 正の整数
チェックポイント ネットワークを保存する頻度。正の整数として指定します。
CheckpointFrequencyUnit
が 'epoch'
の場合、CheckpointFrequency
エポックごとにチェックポイント ネットワークが保存されます。
CheckpointFrequencyUnit
が 'iteration'
の場合、CheckpointFrequency
回の反復ごとにチェックポイント ネットワークが保存されます。
このオプションは、CheckpointPath
が空でない場合にのみ有効です。
データ型: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
CheckpointFrequencyUnit
— チェックポイントの頻度の単位
'epoch'
(既定値) | 'iteration'
チェックポイントの頻度の単位。'epoch'
または 'iteration'
として指定します。
CheckpointFrequencyUnit
が 'epoch'
の場合、CheckpointFrequency
エポックごとにチェックポイント ネットワークが保存されます。
CheckpointFrequencyUnit
が 'iteration'
の場合、CheckpointFrequency
回の反復ごとにチェックポイント ネットワークが保存されます。
このオプションは、CheckpointPath
が空でない場合にのみ有効です。
OutputFcn
— 出力関数
関数ハンドル | 関数ハンドルの cell 配列
学習中に呼び出す出力関数。関数ハンドルまたは関数ハンドルの cell 配列として指定します。trainNetwork
は、学習の開始前に 1 回、各反復後、学習の終了後に 1 回、指定された関数を呼び出します。trainNetwork
は、次のフィールドに情報を格納する構造体を渡します。
フィールド | 説明 |
---|---|
Epoch | 現在のエポック数 |
Iteration | 現在の反復回数 |
TimeSinceStart | 学習を開始してからの時間 (秒単位) |
TrainingLoss | 現在のミニバッチの損失 |
ValidationLoss | 検証データの損失 |
BaseLearnRate | 現在の基本学習率 |
TrainingAccuracy | 現在のミニバッチの精度 (分類ネットワーク) |
TrainingRMSE | 現在のミニバッチの RMSE (回帰ネットワーク) |
ValidationAccuracy | 検証データの精度 (分類ネットワーク) |
ValidationRMSE | 検証データの RMSE (回帰ネットワーク) |
State | 現在の学習の状態 (可能な値は "start" 、"iteration" 、または "done" ) |
フィールドが計算されない、または出力関数の特定の呼び出しに関連していない場合、そのフィールドには空の配列が含まれます。
出力関数を使用して、進行状況を表示またはプロットするか、学習を停止できます。学習を早期に停止するには、出力関数が 1
(true) を返すようにします。いずれかの出力関数から 1
(true) が返されると、学習が終了し、trainNetwork
から最新のネットワークが返されます。出力関数の使用方法を示す例は、深層学習ネットワークの学習時の出力のカスタマイズを参照してください。
データ型: function_handle
| cell
例
RMSProp オプティマイザーの学習オプションの作成
RMSProp オプティマイザーを使用したニューラル ネットワーク学習の一連のオプションを作成します。学習のエポックの最大回数を 20 に設定し、反復ごとに 64 個の観測値があるミニバッチを使用します。学習率と、勾配の二乗の移動平均の減衰率を指定します。学習の進行状況プロットをオンにします。
options = trainingOptions("rmsprop", ... InitialLearnRate=3e-4, ... SquaredGradientDecayFactor=0.99, ... MaxEpochs=20, ... MiniBatchSize=64, ... Plots="training-progress")
options = TrainingOptionsRMSProp with properties: SquaredGradientDecayFactor: 0.9900 Epsilon: 1.0000e-08 InitialLearnRate: 3.0000e-04 LearnRateSchedule: 'none' LearnRateDropFactor: 0.1000 LearnRateDropPeriod: 10 L2Regularization: 1.0000e-04 GradientThresholdMethod: 'l2norm' GradientThreshold: Inf MaxEpochs: 20 MiniBatchSize: 64 Verbose: 1 VerboseFrequency: 50 ValidationData: [] ValidationFrequency: 50 ValidationPatience: Inf Shuffle: 'once' CheckpointPath: '' CheckpointFrequency: 1 CheckpointFrequencyUnit: 'epoch' ExecutionEnvironment: 'auto' WorkerLoad: [] OutputFcn: [] Plots: 'training-progress' SequenceLength: 'longest' SequencePaddingValue: 0 SequencePaddingDirection: 'right' DispatchInBackground: 0 ResetInputNormalization: 1 BatchNormalizationStatistics: 'population' OutputNetwork: 'last-iteration'
アルゴリズム
RMSProp
モーメンタム項付き確率的勾配降下法は、すべてのパラメーターに対して 1 つの学習率を使用します。その他の最適化アルゴリズムでは、パラメーターごとに異なり、最適化対象の損失関数に自動的に適応できる学習率を使用して、ネットワーク学習の改善を試みます。RMSProp (平方根平均二乗伝播) は、そのようなアルゴリズムの 1 つです。これは、パラメーターの勾配について要素単位の二乗の移動平均を維持します。
β2 は移動平均の減衰率です。減衰率の一般的な値は、0.9、0.99、および 0.999 です。対応する勾配の二乗の平均化長は、1/(1-β2) に等しく、それぞれ 10、100、および 1000 回のパラメーター更新です。SquaredGradientDecayFactor
学習オプションを使用して β2 を指定できます。RMSProp アルゴリズムでは、この移動平均を使用して各パラメーターの更新を個別に正規化します。
ここで、除算は要素単位で実行されます。RMSProp を使用すると、勾配が大きいパラメーターの学習率は効果的に減少し、勾配が小さいパラメーターの学習率は増加します。ɛ は、ゼロ除算を回避するために追加する小さい定数です。Epsilon
学習オプションを使用して、ɛ を指定できますが、通常は既定値で良い結果が得られます。RMSProp を使用してニューラル ネットワークに学習させるには、trainingOptions
への最初の入力として 'rmsprop'
を指定します。
L2 正則化
損失関数 への重みの正則化項の追加は、過適合を抑える方法の 1 つです [1]、[2]。正則化項は、"重み減衰" とも呼ばれます。正則化項付きの損失関数は、以下の形式を取ります。
ここで、 は重みベクトル、 は正則化係数です。正則化関数 は以下のようになります。
バイアスは正則化されないことに注意してください[2]。L2Regularization
学習オプションを使用して、正則化係数 を指定できます。層やパラメーターごとに異なる正則化係数を指定することもできます。詳細については、畳み込み層と全結合層のパラメーターの設定を参照してください。
ネットワーク学習に使用される損失関数には、正則化項が含まれます。ただし、学習中にコマンド ウィンドウと学習の進行状況プロットに表示される損失値はデータのみの損失であり、正則化項は含まれません。
勾配クリップ
勾配の大きさが指数関数的に増加する場合、学習は不安定になり、数回の反復で発散する場合があります。この "勾配爆発" は、学習損失が NaN
または Inf
になることによって示されます。勾配クリップでは、学習率が大きい場合や外れ値が存在する場合に学習を安定させることによって、勾配爆発を防ぎます [3]。勾配クリップを使用すると、ネットワークの学習が高速になり、通常は学習済みタスクの精度に影響はありません。
勾配クリップは 2 種類あります。
ノルムベースの勾配クリップでは、しきい値に基づいて勾配を再スケーリングし、勾配の方向は変更しません。
GradientThresholdMethod
の'l2norm'
値と'global-l2norm'
値は、ノルムベースの勾配クリップ法です。値ベースの勾配クリップでは、しきい値より大きい任意の偏微分をクリップします。この場合、勾配の方向が任意に変化する可能性があります。値ベースの勾配クリップの動作は予測できないものになる場合がありますが、変化が十分に小さければ、ネットワークが発散することはありません。
GradientThresholdMethod
の値'absolute-value'
は、値ベースの勾配クリップ法です。
バージョン履歴
R2018a で導入R2022b: SequenceLength
学習オプションを整数として指定した場合、trainNetwork
は、分割を行う前に最も長いシーケンスに合わせてミニバッチをパディングする
R2022b 以降、関数 trainNetwork
を使用してシーケンス データでネットワークに学習させるときに、SequenceLength
オプションが整数である場合、各ミニバッチ内で最も長いシーケンスに合わせてシーケンスがパディングされた後、指定したシーケンス長でシーケンスが分割されてミニバッチが作成されます。SequenceLength
によってミニバッチのシーケンスを均等に分割できない場合、最後に分割されたミニバッチの長さは SequenceLength
より短くなります。この動作によって、パディング値しか含まれないタイム ステップでネットワークの学習が行われるのを防ぐことができます。
以前のリリースでは、SequenceLength
の倍数に最も近く、かつミニバッチ長以上の長さとなるように、シーケンスのミニバッチをパディングしてから、データが分割されていました。この動作を再現するには、カスタム学習ループを使用し、データのミニバッチを前処理するタイミングでこの動作を実装します。
R2018b: ValidationPatience
学習オプションの既定値は Inf
R2018b 以降では、ValidationPatience
学習オプションの既定値が Inf
になっています。これは、検証による自動停止がオフであることを意味します。これにより、データから十分に学習する前に学習が停止するのを防ぎます。
以前のバージョンの既定値は 5
です。この動作を再現するには、ValidationPatience
オプションを 5
に設定します。
MATLAB コマンド
次の MATLAB コマンドに対応するリンクがクリックされました。
コマンドを MATLAB コマンド ウィンドウに入力して実行してください。Web ブラウザーは MATLAB コマンドをサポートしていません。
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)