trainingOptions

深層学習ニューラルネットワークの学習のオプション

構文

options = trainingOptions(solverName)

options = trainingOptions(solverName,Name=Value)

説明

options = trainingOptions(solverName) は、solverName によって指定されるオプティマイザーの学習オプションを返します。ニューラルネットワークに学習させるには、学習オプションを関数 trainnet への入力引数として使用します。

options = trainingOptions(solverName,Name=Value) は、学習オプションと、1 つ以上の名前と値の引数で指定された追加オプションを返します。

例

すべて折りたたむ

学習オプションの指定

ライブスクリプトを開く

モーメンタム項付き確率的勾配降下法を使用したネットワーク学習の一連のオプションを作成します。5 エポックごとに 0.2 ずつ学習率を下げます。学習のエポックの最大回数を 20 に設定し、反復ごとに 64 個の観測値があるミニバッチを使用します。学習の進行状況プロットをオンにします。

options = trainingOptions("sgdm", ...
    LearnRateSchedule="piecewise", ...
    LearnRateDropFactor=0.2, ...
    LearnRateDropPeriod=5, ...
    MaxEpochs=20, ...
    MiniBatchSize=64, ...
    Plots="training-progress")

options = 
  TrainingOptionsSGDM with properties:

                        Momentum: 0.9000
                       MaxEpochs: 20
                InitialLearnRate: 0.0100
               LearnRateSchedule: 'piecewise'
             LearnRateDropFactor: 0.2000
             LearnRateDropPeriod: 5
                   MiniBatchSize: 64
                         Shuffle: 'once'
         CheckpointFrequencyUnit: 'epoch'
        PreprocessingEnvironment: 'serial'
                         Verbose: 1
                VerboseFrequency: 50
                  ValidationData: []
             ValidationFrequency: 50
              ValidationPatience: Inf
                         Metrics: []
             ObjectiveMetricName: 'loss'
            ExecutionEnvironment: 'auto'
                           Plots: 'training-progress'
                       OutputFcn: []
                  SequenceLength: 'longest'
            SequencePaddingValue: 0
        SequencePaddingDirection: 'right'
                InputDataFormats: "auto"
               TargetDataFormats: "auto"
         ResetInputNormalization: 1
    BatchNormalizationStatistics: 'auto'
                   OutputNetwork: 'auto'
                    Acceleration: "auto"
                  CheckpointPath: ''
             CheckpointFrequency: 1
        CategoricalInputEncoding: 'integer'
       CategoricalTargetEncoding: 'auto'
                L2Regularization: 1.0000e-04
         GradientThresholdMethod: 'l2norm'
               GradientThreshold: Inf

深層学習における学習の進行状況の監視

ライブスクリプトを開く

この例では、深層学習ネットワークの学習の進行状況を監視する方法を示します。

深層学習用にネットワークに学習させる場合、学習中にさまざまなメトリクスをプロットすることで、学習の進行状況を知ることができます。たとえば、ネットワークの精度が改善されているかどうか、その改善の速度、さらにネットワークで学習データへの過適合が始まっているかどうかを判定できます。

この例では、関数 trainnet を使用して学習させたネットワークの学習の進行状況を監視する方法を示します。カスタム学習ループを使用してネットワークに学習させる場合は、代わりにtrainingProgressMonitorオブジェクトを使用して学習中にメトリクスをプロットします。詳細については、Monitor Custom Training Loop Progressを参照してください。

trainingOptions で Plots 学習オプションを "training-progress" に設定してネットワークの学習を開始すると、関数 trainnet によって Figure が作成され、反復ごとに学習メトリクスが表示されます。各反復は、勾配の推定と、ネットワークパラメーターの更新で構成されます。trainingOptions に検証データを指定すると、trainnet によってネットワークが検証されるたびに Figure に検証メトリクスが表示されます。Figure には、損失と、名前と値のオプション Metrics で指定した任意のメトリクスがプロットされます。既定では、ソフトウェアはプロットに線形スケールを使用します。Y 軸に対数スケールを指定するには、座標軸ツールバーの対数スケールボタンを選択します。

学習中、右上隅の停止ボタンをクリックして学習を停止し、ネットワークの現在の状態を返すことができます。停止ボタンのクリックの後、学習が完了するまでしばらくかかることがあります。学習が完了すると、trainnet が学習済みネットワークを返します。

OutputNetwork 学習オプションを "best-validation" として指定すると、最適な検証メトリクス値での反復に対応する最終値が得られます。ここで、最適化されたメトリクスは ObjectiveMetricName 学習オプションで指定されます。最後の学習反復に対応する最終メトリクスを取得するには、OutputNetwork 学習オプションを "last-iteration" として指定します。

ペインの右側には、学習の時間と設定に関する情報が表示されます。学習オプションの詳細は、パラメーターの設定と畳み込みニューラルネットワークの学習を参照してください。

学習の進行状況のプロットを保存するには、学習ウィンドウの [イメージとしてエクスポート] をクリックします。プロットは PNG、JPEG、TIFF、または PDF ファイルとして保存できます。座標軸ツールバーを使用して個々のプロットを保存することもできます。

学習時の進行状況のプロット

ネットワークに学習させ、学習中にその進行状況をプロットします。

MAT ファイル DigitsDataTrain.mat および DigitsDataTest.mat から学習データとテストデータをそれぞれ読み込みます。学習データセットとテストデータセットにはそれぞれ、5000 個のイメージが含まれています。

load DigitsDataTrain.mat
load DigitsDataTest.mat

dlnetwork オブジェクトを作成します。

net = dlnetwork;

分類分岐の層を指定し、それをネットワークに追加します。

layers = [
    imageInputLayer([28 28 1])
    convolution2dLayer(3,8,Padding="same")
    batchNormalizationLayer
    reluLayer   
    maxPooling2dLayer(2,Stride=2)
    convolution2dLayer(3,16,Padding="same")
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2,Stride=2)
    convolution2dLayer(3,32,Padding="same")
    batchNormalizationLayer
    reluLayer
    fullyConnectedLayer(10)
    softmaxLayer];

net = addLayers(net,layers);

ネットワーク学習のオプションを指定します。学習中に一定の間隔でネットワークを検証するための検証データを指定します。精度と F スコアのメトリクス値を記録します。学習中に学習の進行状況をプロットするには、Plots 学習オプションを "training-progress" に設定します。

options = trainingOptions("sgdm", ...
    MaxEpochs=8, ...
    Metrics = ["accuracy","fscore"], ...
    ValidationData={XTest,labelsTest}, ...
    ValidationFrequency=30, ...
    Verbose=false, ...
    Plots="training-progress");

ネットワークに学習をさせます。

net = trainnet(XTrain,labelsTrain,net,"crossentropy",options);

メトリクスを使用した学習の早期停止

ライブスクリプトを開く

メトリクスを使用し、早期の停止を行って最適なネットワークを返します。

5000 個の数字のイメージが格納されている学習データを読み込みます。ネットワークの検証用に 1000 個のイメージを残しておきます。

[XTrain,YTrain] = digitTrain4DArrayData;

idx = randperm(size(XTrain,4),1000);
XValidation = XTrain(:,:,:,idx);
XTrain(:,:,:,idx) = [];
YValidation = YTrain(idx);
YTrain(idx) = [];

数字のイメージデータを分類するネットワークを構築します。

net = dlnetwork;

layers = [
    imageInputLayer([28 28 1])
    convolution2dLayer(3,8,Padding="same")
    batchNormalizationLayer
    reluLayer      
    fullyConnectedLayer(10)
    softmaxLayer];

net = addLayers(net,layers);

学習オプションを指定します。

SGDM ソルバーを使用して学習を行います。
検証データと検証頻度を指定して、学習パフォーマンスを監視します。
学習中に精度と再現率を追跡します。再現率の値が最良のネットワークを返すようにするには、"recall" をオブジェクティブメトリクスとして指定し、出力ネットワークを "best-validation" に設定します。
5 回の反復の間に再現率が低下しなかった場合に学習が停止するように、検証の許容回数を 5 に指定します。
ネットワークの学習の進行状況プロットを表示します。
詳細出力を非表示にします。

options = trainingOptions("sgdm", ...
    ValidationData={XValidation,YValidation}, ...
    ValidationFrequency=35, ...
    ValidationPatience=5, ...
    Metrics=["accuracy","recall"], ...
    ObjectiveMetricName="recall", ...
    OutputNetwork="best-validation", ...
    Plots="training-progress", ...
    Verbose=false);

ネットワークに学習をさせます。

net = trainnet(XTrain,YTrain,net,"crossentropy",options);

入力引数

すべて折りたたむ

`solverName` — ニューラルネットワークの学習用のソルバー
`"sgdm"` | `"rmsprop"` | `"adam"` | `"lbfgs"` (R2023b 以降) | `"lm"` (R2024b 以降)

ニューラルネットワークの学習用のソルバー。次のいずれかの値として指定します。

"sgdm" — モーメンタム項付き確率的勾配降下法 (SGDM)。SGDM は確率的ソルバーです。その他の学習オプションについては、確率的ソルバーのオプションを参照してください。詳細については、モーメンタム項付き確率的勾配降下法を参照してください。
"rmsprop" — 平方根平均二乗伝播 (RMSProp)。RMSProp は確率的ソルバーです。その他の学習オプションについては、確率的ソルバーのオプションを参照してください。詳細については、平方根平均二乗伝播を参照してください。
"adam" — 適応モーメント推定 (Adam)。Adam は確率的ソルバーです。その他の学習オプションについては、確率的ソルバーのオプションを参照してください。詳細については、適応モーメント推定を参照してください。
"lbfgs" (R2023b 以降) — メモリ制限 Broyden–Fletcher–Goldfarb–Shanno (L-BFGS)。L-BFGS はバッチソルバーです。L-BFGS アルゴリズムは、単一のバッチで処理できる小規模なネットワークやデータセットに使用します。その他の学習オプションについては、バッチソルバーのオプションを参照してください。詳細については、メモリ制限 BFGSを参照してください。
"lm" (R2024b 以降) — レーベンバーグ・マルカート (LM)。LM はバッチソルバーです。LM アルゴリズムは、学習可能なパラメーターの数が少なく、データセットを 1 つのバッチで処理できる回帰ネットワークに使用します。solverName が "lm" の場合、trainnet 関数の lossFcn 引数は "mse" または "l2loss" でなければなりません。その他の学習オプションについては、バッチソルバーのオプションを参照してください。詳細については、レーベンバーグ・マルカートを参照してください。

関数 trainBERTDocumentClassifier (Text Analytics Toolbox) は、"sgdm"、"rmsprop"、および "adam" ソルバーのみをサポートします。

名前と値の引数

すべて展開する

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、コンマを使用して名前と値をそれぞれ区切り、Name を引用符で囲みます。

例: Plots="training-progress",Metrics="accuracy",Verbose=false は、詳細出力を無効にし、学習の進行状況を精度メトリクスも含めてプロットに表示するように指定します。

監視

すべて展開する

`Plots` — ニューラルネットワークの学習中に表示するプロット
`"none"` (既定値) | `"training-progress"`

ニューラルネットワークの学習中に表示するプロット。次のいずれかの値として指定します。

"none" — 学習中にプロットを表示しません。
"training-progress" — 学習の進行状況をプロットします。

プロットの内容は、使用するソルバーによって異なります。

引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合、プロットには、ミニバッチ損失、検証損失、Metrics オプションで指定された学習ミニバッチと検証のメトリクス、および学習の進行状況に関する追加情報が表示されます。
solverName 引数が "lbfgs" または "lm" の場合、プロットには、学習と検証の損失、Metrics オプションで指定された学習と検証のメトリクス、および学習の進行状況に関する追加情報が表示されます。

学習後にプログラムで学習の進行状況プロットを開いたり閉じたりするには、関数 trainnet の 2 番目の出力で関数 show および close を使用します。Plots 学習オプションが "none" として指定されている場合でも、関数 show を使用して学習の進行状況を表示できます。

Y 軸のスケールを対数に切り替えるには、座標軸ツールバーを使用します。 Training plot axes toolbar with log scale enabled and the tooltip "Log scale y-axis".

プロットの詳細については、深層学習における学習の進行状況の監視を参照してください。

`Metrics` — 監視するメトリクス
`[]` (既定値) | 文字ベクトル | string 配列 | 関数ハンドル | `deep.DifferentiableFunction` オブジェクト (R2024a 以降) | cell 配列 | メトリクスオブジェクト

R2023b 以降

監視するメトリクス。次のいずれかの値として指定します。

組み込みメトリクスまたは損失関数名 — string スカラー、文字ベクトル、または次の 1 つ以上の名前の cell 配列か string 配列としてメトリクスを指定します。
- メトリクス:
  - "accuracy" — 精度 (最上位精度とも呼ばれる)
  - "auc" — ROC 曲線下面積 (AUC)
  - "fscore" — F スコア (F₁ スコアとも呼ばれる)
  - "precision" — 適合率
  - "recall" — 再現率
  - "rmse" — 平方根平均二乗誤差
  - "mape" — 平均絶対誤差率 (MAPE) (R2024b 以降)
  - "rsquared" — R² (決定係数) (R2025a 以降)
- 損失関数:
  - "crossentropy" — 分類タスクのクロスエントロピー損失。 (R2024b 以降)
  - "indexcrossentropy" — 分類タスクのインデックスクロスエントロピー損失。 (R2024b 以降)
  - "binary-crossentropy" — バイナリおよびマルチラベル分類タスクのバイナリクロスエントロピー損失。 (R2024b 以降)
  - "mae" / "mean-absolute-error" / "l1loss" — 回帰タスクの平均絶対誤差。 (R2024b 以降)
  - "mse" / "mean-squared-error" / "l2loss" — 回帰タスクの平均二乗誤差。 (R2024b 以降)
  - "huber" — 回帰タスクの Huber 損失 (R2024b 以降)
損失関数を "crossentropy" に設定し、メトリクスとして "index-crossentropy" を指定すること、または損失関数を "index-crossentropy" に設定し、メトリクスとして "crossentropy" を指定することはサポートされていないことに注意してください。
深層学習のメトリクスと損失関数の詳細については、Deep Learning Metricsを参照してください。

組み込みメトリクスオブジェクト — より高い柔軟性が必要な場合は、組み込みメトリクスオブジェクトを使用できます。ソフトウェアは、次の組み込みメトリクスオブジェクトをサポートします。
- AccuracyMetric
- AUCMetric
- FScoreMetric
- PrecisionMetric
- RecallMetric
- RMSEMetric
- MAPEMetric (R2024b 以降)
- RSquaredMetric (R2025a 以降)
組み込みメトリクスオブジェクトを作成するときは、平均化のタイプ、タスクが単一ラベルか複数ラベルかなどの追加オプションを指定できます。
カスタムメトリクス関数ハンドル — 組み込みメトリクス以外のメトリクスが必要な場合は、関数ハンドルを使用してカスタムメトリクスを指定できます。関数の構文は metric = metricFunction(Y,T) でなければなりません。ここで、Y はネットワーク予測に対応し、T はターゲット応答に対応します。複数の出力をもつネットワークの場合、構文は metric = metricFunction(Y1,…,YN,T1,…TM) でなければなりません。ここで、N は出力の数、M はターゲットの数です。詳細については、Define Custom Metric Functionを参照してください。
メモ
ミニバッチにデータが含まれる場合、ソフトウェアは各ミニバッチのメトリクスを計算し、それらの値の平均を返します。メトリクスによっては、この動作のために、データセット全体を一度に使用してメトリクスを計算する場合とは異なるメトリクス値を取ることがあります。ほとんどの場合は、同様の値になります。データに対してバッチ平均されていないカスタムメトリクスを使用するには、カスタムメトリクスオブジェクトを作成しなければなりません。詳細については、Define Custom Deep Learning Metric Objectを参照してください。
deep.DifferentiableFunction オブジェクト (R2024a 以降) — カスタム逆方向関数をもつ関数オブジェクト。categorical ターゲットの場合、ソフトウェアは categorical 値を one-hot 符号化されたベクトルに自動的に変換し、メトリクス関数に渡します。詳細については、Define Custom Deep Learning Operationsを参照してください。
カスタムメトリクスオブジェクト — より詳細なカスタマイズが必要な場合は、独自のカスタムメトリクスオブジェクトを定義できます。カスタムメトリクスの作成方法を示す例については、Define Custom Metric Objectを参照してください。カスタムメトリクスの作成に関する一般的な情報については、Define Custom Deep Learning Metric Objectを参照してください。

メトリクスを関数ハンドル、deep.DifferentiableFunction オブジェクト、またはカスタムメトリクスオブジェクトとして指定し、trainnet 関数を使用してニューラルネットワークに学習させる場合、ソフトウェアによってメトリクスに渡されるターゲットのレイアウトは、ターゲットのデータ型、trainnet 関数で指定する損失関数、および指定するその他のメトリクスによって異なります。

ターゲットが数値配列の場合、ソフトウェアはターゲットをメトリクスに直接渡します。
損失関数が "index-crossentropy" で、ターゲットが categorical 配列の場合、ソフトウェアはターゲットを数値クラスインデックスに自動的に変換し、メトリクスに渡します。
その他の損失関数では、ターゲットが categorical 配列の場合、ソフトウェアはターゲットを自動的に one-hot 符号化されたベクトルに変換し、メトリクスに渡します。

このオプションは、関数 trainnet と関数 trainBERTDocumentClassifier (Text Analytics Toolbox) のみをサポートします。

例: Metrics=["accuracy","fscore"]

例: Metrics={"accuracy",@myFunction,precisionObj}

`ObjectiveMetricName` — オブジェクティブメトリクスの名前
`"loss"` (既定値) | string スカラー | 文字ベクトル

R2024a 以降

早期に停止して最適なネットワークを返すのに使用されるオブジェクティブメトリクスの名前。string スカラーまたは文字ベクトルとして指定します。

このメトリクスの名前は、"loss" であるか、Metrics 引数で指定されたメトリクスの名前と同じでなければなりません。関数ハンドルで指定されたメトリクスはサポートされていません。ObjectiveMetricName の値をカスタムメトリクスの名前として指定するには、カスタムメトリクスオブジェクトの Maximize プロパティの値が空であってはなりません。詳細については、Define Custom Deep Learning Metric Objectを参照してください。

早期に停止するためのオブジェクティブメトリクスの指定に関する詳細については、ValidationPatience を参照してください。オブジェクティブメトリクスを使用して最適なネットワークを返すことに関する詳細については、OutputNetwork を参照してください。

データ型: char | string

`Verbose` — 学習の進行状況の情報を表示するためのフラグ
`1` (`true`) (既定値) | `0` (`false`)

コマンドウィンドウに学習の進行状況の情報を表示するためのフラグ。1 (true) または 0 (false) として指定します。

詳細出力の内容は、ソルバーのタイプによって異なります。

確率的ソルバー (SGDM、Adam、および RMSProp) の場合、このテーブルには次の変数が含まれます。

変数	説明
`Iteration`	反復回数。
`Epoch`	エポック数。
`TimeElapsed`	経過時間。時間、分、秒で示されます。
`LearnRate`	学習率。
`TrainingLoss`	学習損失。
`ValidationLoss`	検証損失。検証データを指定しない場合、ソフトウェアはこの情報を表示しません。

バッチソルバー (L-BFGS および LM) の場合、この table には次の変数が含まれます。

変数	説明
`Iteration`	反復回数。
`TimeElapsed`	経過時間。時間、分、秒で示されます。
`TrainingLoss`	学習損失。
`ValidationLoss`	検証損失。検証データを指定しない場合、ソフトウェアはこの情報を表示しません。
`GradientNorm`	勾配のノルム。
`StepNorm`	ステップのノルム。

学習オプションで追加のメトリクスを指定した場合、詳細出力にもそれらのメトリクスが表示されます。たとえば、Metrics 学習オプションを "accuracy" に設定した場合、変数 TrainingAccuracy および ValidationAccuracy もこの情報に含まれます。

学習が停止すると、詳細出力に停止の理由が表示されます。

検証データを指定するには、ValidationData 学習オプションを使用します。

`VerboseFrequency` — 詳細出力の頻度
`50` (既定値) | 正の整数

コマンドウィンドウへの表示間の反復回数を示す、詳細出力の頻度。正の整数として指定します。

学習中にニューラルネットワークを検証する場合、ソフトウェアは、検証が行われるたびにコマンドウィンドウにも出力します。

このプロパティを有効にするには、Verbose 学習オプションを 1 (true) に設定します。

`OutputFcn` — 出力関数
関数ハンドル | 関数ハンドルの cell 配列

学習中に呼び出す出力関数。関数ハンドル、または関数ハンドルの cell 配列として指定します。ソフトウェアは、学習の開始前、各反復後、および学習の完了時に関数を 1 回呼び出します。

関数の構文は stopFlag = f(info) でなければなりません。ここで、info は学習の進行状況に関する情報が格納される構造体、stopFlag は学習を早期に停止させることを示すスカラーです。stopFlag が 1 (true) の場合、ソフトウェアは学習を停止させます。それ以外の場合、ソフトウェアは学習を続行します。

関数 trainnet は、出力関数に構造体 info を渡します。

確率的ソルバー (SGDM、Adam、および RMSProp) の場合、info には次のフィールドが含まれます。

フィールド	説明
`Epoch`	エポック数
`Iteration`	反復回数
`TimeElapsed`	学習開始からの時間
`LearnRate`	反復での学習率
`TrainingLoss`	反復での学習損失
`ValidationLoss`	検証損失 (指定されており、反復時に評価される場合)。
`State`	反復での学習状態。`"start"`、`"iteration"`、または `"done"` として指定します。

バッチソルバー (L-BFGS および LM) の場合、info には次のフィールドが含まれます。

フィールド	説明
`Iteration`	反復回数
`TimeElapsed`	経過時間 (時間、分、秒)
`TrainingLoss`	学習損失
`ValidationLoss`	検証損失。検証データを指定しない場合、ソフトウェアはこの情報を表示しません。
`GradientNorm`	勾配のノルム
`StepNorm`	ステップのノルム
`State`	反復での学習状態。`"start"`、`"iteration"`、または `"done"` として指定します。

学習オプションで追加のメトリクスを指定した場合、学習情報にもそれらのメトリクスが表示されます。たとえば、Metrics 学習オプションを "accuracy" に設定した場合、フィールド TrainingAccuracy および ValidationAccuracy もこの情報に含まれます。

フィールドが計算されない、または出力関数の特定の呼び出しに関連していない場合、そのフィールドには空の配列が含まれます。

出力関数の使用方法を示す例については、Custom Stopping Criteria for Deep Learning Trainingを参照してください。

データ型: function_handle | cell

データレイアウト

すべて展開する

`CategoricalInputEncoding` — categorical 入力の符号化
`"integer"` (既定値) | `"one-hot"`

R2025a 以降

categorical 入力の符号化。次のいずれかの値として指定します。

"integer" — categorical 入力を整数値に変換します。この場合、ネットワークは categorical 入力ごとに 1 つの入力チャネルをもたなければなりません。
"one-hot" — categorical 入力を one-hot 符号化されたベクトルに変換します。この場合、ネットワークは categorical 入力ごとに numCategories 個のチャネルをもたなければなりません。ここで、numCategories は対応する categorical 入力のカテゴリの数です。

`CategoricalTargetEncoding` — categorical ターゲットの符号化
`"auto"` (既定値) | `"integer"` | `"one-hot"`

R2025a 以降

categorical ターゲットの符号化。次のいずれかの値として指定します。

"auto" — "index-crossentropy" 損失関数を使用して学習させる場合は、categorical ターゲットを整数値に変換します。それ以外の場合は、categorical ターゲットを one-hot 符号化されたベクトルに変換します。
"integer" — categorical ターゲットを整数値に変換し、整数に符号化された値を損失関数とメトリクス関数に渡します。
"one-hot" — categorical ターゲットを one-hot 符号化されたベクトルに変換し、one-hot 符号化された値を損失関数とメトリクス関数に渡します。

`InputDataFormats` — 入力データの次元の説明
`"auto"` (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

R2023b 以降

入力データの次元の説明。string 配列、文字ベクトル、または文字ベクトルの cell 配列として指定します。

InputDataFormats が "auto" の場合、ソフトウェアは、ネットワークの入力で必要とされる形式を使用します。そうでない場合、ソフトウェアは、該当するネットワーク入力に対して指定された形式を使用します。

データ形式は文字列で、各文字は対応するデータ次元のタイプを表します。

各文字は以下のとおりです。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

たとえば、シーケンスのバッチを表し、1 番目、2 番目、および 3 番目の次元がそれぞれチャネル、観測値、およびタイムステップに対応する配列があるとします。データは "CBT" (チャネル、バッチ、時間) の形式で記述できます。

"S" または "U" のラベルが付いた次元については、複数回指定できます。ラベル "C"、"B"、および "T" はそれぞれ 1 回まで使用できます。ソフトウェアは、2 番目の次元の後ろにある大きさが 1 の "U" 次元を無視します。

複数の入力をもつニューラルネットワーク net の場合、入力データ形式の配列を指定します。ここで、InputDataFormats(i) は入力 net.InputNames(i) に対応します。

詳細については、深層学習のデータ形式を参照してください。

データ型: char | string | cell

`TargetDataFormats` — ターゲットデータの次元の説明
`"auto"` (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

R2023b 以降

ターゲットデータの次元の説明。次のいずれかの値として指定します。

"auto" — ターゲットデータと入力データの次元の数が同じ場合、関数 trainnet は InputDataFormats で指定された形式を使用します。ターゲットデータと入力データの次元の数が異なる場合、関数 trainnet は損失関数で必要とされる形式を使用します。
string 配列、文字ベクトル、または文字ベクトルの cell 配列 — 関数 trainnet はユーザーが指定したデータ形式を使用します。

データ形式は文字列で、各文字は対応するデータ次元のタイプを表します。

各文字は以下のとおりです。

"S" — 空間
"C" — チャネル
"B" — バッチ
"T" — 時間
"U" — 指定なし

詳細については、深層学習のデータ形式を参照してください。

データ型: char | string | cell

確率的ソルバーのオプション

すべて展開する

`MaxEpochs` — エポックの最大回数
`30` (既定値) | 正の整数

学習に使用するエポックの最大数 (データを一巡する回数)。正の整数として指定します。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

`MiniBatchSize` — ミニバッチのサイズ
`128` (既定値) | 正の整数

学習の各反復で使用するミニバッチのサイズ。正の整数として指定します。ミニバッチとは、損失関数の勾配を評価し、重みを更新するために使用される学習セットのサブセットのことです。

ミニバッチのサイズで学習サンプルの数を割り切ることができない場合、ソフトウェアは、各エポックの最後のミニバッチにちょうど収まらない学習データを破棄します。ミニバッチのサイズが学習サンプルの数より小さい場合、ソフトウェアはいかなるデータも破棄しません。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

ヒント

最高のパフォーマンスを得るために、imageDatastore などの ReadSize プロパティをもつデータストアを使用してネットワークに学習させる場合は、ReadSize プロパティと MiniBatchSize 学習オプションを同じ値に設定します。augmentedImageDatastore などの MiniBatchSize プロパティをもつデータストアを使用してネットワークに学習させる場合は、データストアの MiniBatchSize プロパティと MiniBatchSize 学習オプションを同じ値に設定します。

`Shuffle` — データのシャッフルのオプション
`"once"` (既定値) | `"never"` | `"every-epoch"`

データのシャッフルのオプション。次のいずれかの値として指定します。

"once" — 学習データと検証データを学習前に 1 回シャッフルします。
"never" — データをシャッフルしません。
"every-epoch" — 各学習エポックの前に学習データをシャッフルし、ニューラルネットワークの各検証の前に検証データをシャッフルします。ミニバッチのサイズで学習サンプルの数を割り切ることができない場合、ソフトウェアは、各エポックの最後のミニバッチにちょうど収まらない学習データを破棄します。エポックごとに同じデータが破棄されるのを回避するには、Shuffle 学習オプションを "every-epoch" に設定します。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

`InitialLearnRate` — 初期学習率
正のスカラー

学習に使用される初期学習率。正のスカラーとして指定します。

学習率が小さすぎる場合、学習に時間がかかることがあります。学習率が大きすぎる場合、学習結果が準最適になったり、発散したりすることがあります。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

solverName が "sgdm" の場合、既定値は 0.01 です。solverName が "rmsprop" または "adam" の場合、既定値は 0.001 です。

`LearnRateSchedule` — 学習率スケジュール
`"none"` (既定値) | 文字ベクトル | string 配列 | 組み込みまたはカスタムの学習率スケジュールオブジェクト | 関数ハンドル | cell 配列

学習率スケジュール。組み込みの学習率スケジュール名の文字ベクトルまたは string スカラー、名前の string 配列、組み込みまたはカスタムの学習率スケジュールオブジェクト、または関数ハンドルとして指定するか、名前、メトリクスオブジェクト、および関数ハンドルから成る cell 配列として指定します。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

組み込みの学習率スケジュール名

学習率スケジュールを、string スカラー、文字ベクトル、または次の 1 つ以上の名前から成る string または cell 配列として指定します。

名前	説明	プロット
`"none"`	学習率スケジュールなし。このスケジュールでは、学習率が一定に保持されます。
`"piecewise"`	区分的学習率スケジュール。このスケジュールでは、10 エポックごとに学習率を 10 分の 1 に下げます。
`"warmup"` (R2024b 以降)	ウォームアップ学習率スケジュール。このスケジュールでは、5 回の反復で学習率を基本学習率まで上げます。
`"polynomial"` (R2024b 以降)	多項式学習率スケジュール。このスケジュールでは、エポックごとに単位指数のべき乗則を使用して学習率を下げます。
`"exponential"` (R2024b 以降)	指数学習率スケジュール。このスケジュールでは、エポックごとに学習率を `10` 分の 1 に減衰させます。
`"cosine"` (R2024b 以降)	余弦学習率スケジュール。このスケジュールでは、エポックごとに余弦定理を使用して学習率を下げます。
`"cyclical"` (R2024b 以降)	周期的学習率スケジュール。このスケジュールでは、10 エポックの周期において、基本学習率から 5 エポックの間は学習率を増加させ、その後 5 エポックの間は学習率を減少させます。

組み込みの学習率スケジュールオブジェクト (R2024b 以降)

string オプションを超える柔軟性が必要な場合は、組み込みの学習率スケジュールオブジェクトを使用できます。

piecewiseLearnRate — 区分的学習率スケジュールオブジェクトは、指定された係数を乗算して学習率を定期的に下げます。このオブジェクトを使用して、区分的スケジュールのドロップ係数と期間をカスタマイズします。
R2024b より前: LearnRateDropFactor 学習オプションと LearnRateDropPeriod 学習オプションをそれぞれ使用して、区分的ドロップ係数と周期をカスタマイズします。
warmupLearnRate — ウォームアップ学習率スケジュールオブジェクトは、指定された反復回数だけ学習を強化します。このオブジェクトを使用して、初期学習率係数、最終学習率係数、およびウォームアップスケジュールのステップ数をカスタマイズします。
polynomialLearnRate — 多項式学習率スケジュールでは、べき乗則を使用して学習率を下げます。このオブジェクトを使用して、初期学習率係数、最終学習率係数、指数、および多項式スケジュールのステップ数をカスタマイズします。
exponentialLearnRate — 指数学習率スケジュールでは、指定した係数で学習率を減衰させます。このオブジェクトを使用して、指数スケジュールのドロップ係数と周期をカスタマイズします。
cosineLearnRate — 余弦学習率スケジュールオブジェクトは、余弦曲線を使用して学習率を下げ、ウォームリスタートを組み込みます。このオブジェクトを使用して、コサインスケジュールの初期学習率係数、最終学習率係数、周期、および周期成長係数をカスタマイズします。
cyclicalLearnRate — 周期的学習率スケジュールでは、学習率を周期的に増減させます。このオプションを使用して、周期的なスケジュールの最大係数、周期、およびステップ比率をカスタマイズします。

カスタム学習率スケジュール (R2024b 以降)

柔軟性をさらに高めるには、deep.LearnRateSchedule から継承する関数ハンドルまたはカスタムクラスとしてカスタム学習率スケジュールを定義できます。

カスタム学習率スケジュール関数ハンドル — 必要な学習率スケジュールが組み込み学習率スケジュールではない場合、関数ハンドルを使用してカスタム学習率スケジュールを指定できます。カスタムスケジュールを指定するには、構文 learningRate = f(baseLearningRate,epoch) で関数ハンドルを使用します。ここで、baseLearningRate は基本学習率、epoch はエポック数です。
カスタム学習率スケジュールオブジェクト — 関数ハンドルを超える柔軟性が必要な場合は、deep.LearnRateSchedule から継承するカスタム学習率スケジュールクラスを定義できます。

複数の学習率スケジュール (R2024b 以降)

複数のスケジュールを string または cell 配列として指定することで、複数の学習率スケジュールを組み合わせることができます。次いでソフトウェアは、最初の要素から順番にスケジュールを適用します。スケジュールのうち最大 1 つを無限にすることができます ("cyclical" スケジュールや、NumSteps プロパティを Inf に設定したオブジェクトなど、無期限に継続するスケジュール)。無限スケジュールは、配列の最後の要素でなければなりません。

`Momentum` — 前のステップの寄与
`0.9` (既定値) | `0` から `1` までのスカラー

モーメンタム項付き確率的勾配降下法における前の反復から現在の反復へのパラメーター更新ステップの寄与。0 から 1 までのスカラーとして指定します。

値 0 は前のステップからの寄与がないことを意味し、値 1 は前のステップからの寄与が最大であることを意味します。ほとんどのタスクにおいて、既定値で良い結果が得られます。

このオプションは、SGDM ソルバーのみをサポートします (引数 solverName が "sgdm" の場合)。

詳細については、モーメンタム項付き確率的勾配降下法を参照してください。

`GradientDecayFactor` — 勾配の移動平均の減衰率
`0.9` (既定値) | `1` 未満の非負のスカラー

Adam ソルバーの勾配の移動平均の減衰率。1 未満の非負のスカラーとして指定します。勾配の減衰率は、適応モーメント推定の節で β₁ で表されます。

このオプションは、Adam ソルバーのみをサポートします (引数 solverName が "adam" の場合)。

詳細については、適応モーメント推定を参照してください。

`SquaredGradientDecayFactor` — 勾配の二乗の移動平均の減衰率
`1` 未満の非負のスカラー

Adam ソルバーおよび RMSProp ソルバーの勾配の二乗の移動平均の減衰率。1 未満の非負のスカラーとして指定します。勾配の二乗の減衰率は、[4]で β₂ として表されます。

減衰率の一般的な値は 0.9、0.99、および 0.999 であり、平均化の長さとしては 10 回、100 回、および 1000 回のパラメーター更新にそれぞれ対応しています。

このオプションは、Adam ソルバーおよび RMSProp ソルバーのみをサポートします (引数 solverName が "adam" または "rmsprop" の場合)。

Adam ソルバーの既定値は 0.999 です。RMSProp ソルバーの既定値は 0.9 です。

詳細については、適応モーメント推定および平方根平均二乗伝播を参照してください。

`Epsilon` — 分母のオフセット
`1e-8` (既定値) | 正のスカラー

Adam および RMSProp ソルバーの分母のオフセット。正のスカラーとして指定します。

ソルバーは、ニューラルネットワークパラメーターの更新時に分母にオフセットを追加して、ゼロ除算を回避します。ほとんどのタスクにおいて、既定値で良い結果が得られます。

このオプションは、Adam ソルバーおよび RMSProp ソルバーのみをサポートします (引数 solverName が "adam" または "rmsprop" の場合)。

詳細については、適応モーメント推定および平方根平均二乗伝播を参照してください。

`LearnRateDropFactor` — 学習率を下げる係数
`0.1` (既定値) | `0` から `1` までのスカラー

学習率を下げる係数。0 から 1 までのスカラーとして指定します。このオプションは、LearnRateSchedule 学習オプションが "piecewise" の場合にのみ有効です。

LearnRateDropFactor は、特定のエポック数が経過するたびに学習率に適用される乗法係数です。LearnRateDropPeriod 学習オプションを使用してエポック数を指定します。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

ヒント

区分的学習率スケジュールをカスタマイズするには、piecewiseLearnRate オブジェクトを使用します。ドロップ頻度をさらに制御できるため、LearnRateDropFactor および LearnRateDropPeriod の学習オプションよりも、piecewiseLearnRate オブジェクトの使用が推奨されます。 (R2024b 以降)

`LearnRateDropPeriod` — 学習率を下げるまでのエポック数
`10` (既定値) | 正の整数

学習率を下げるまでのエポック数。正の整数として指定します。このオプションは、LearnRateSchedule 学習オプションが "piecewise" の場合にのみ有効です。

指定したエポック数が経過するたびに、グローバル学習率と低下係数が乗算されます。LearnRateDropFactor 学習オプションを使用して低下係数を指定します。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

ヒント

バッチソルバーのオプション

すべて展開する

`MaxIterations` — 最大反復回数
`1000` (既定値) | 正の整数

R2023b 以降

学習に使用する最大反復回数。正の整数として指定します。

L-BFGS ソルバーは全バッチソルバーです。これは、学習セット全体を 1 回の反復で処理することを意味します。

このオプションはバッチソルバーのみをサポートします (solverName 引数が "lbfgs" または "lm" の場合)。

`GradientTolerance` — 相対勾配の許容値
`1e-5` (既定値) | 正のスカラー | `0` (R2025a 以降)

R2023b 以降

相対勾配の許容値。正のスカラーとして指定します。

相対勾配の許容誤差。次のいずれかの値として指定します。

正のスカラー — 相対勾配が指定した値以下になると、学習を停止します。
0 (R2025a 以降) — 相対勾配に基づいて学習を停止しません。

このオプションはバッチソルバーのみをサポートします (solverName 引数が "lbfgs" または "lm" の場合)。

`StepTolerance` — ステップサイズの許容値
`1e-5` (既定値) | 正のスカラー | `0` (R2025a 以降)

R2023b 以降

ステップサイズの許容誤差。次のいずれかの値として指定します。

正のスカラー — アルゴリズムの実行するステップが指定された値以下になると、学習を停止します。
0 (R2025a 以降) — ステップサイズに基づいて学習を停止しません。

このオプションはバッチソルバーのみをサポートします (solverName 引数が "lbfgs" または "lm" の場合)。

`LineSearchMethod` — 適切な学習率を検出する方法
`"weak-wolfe"` (既定値) | `"strong-wolfe"` | `"backtracking"`

R2023b 以降

適切な学習率を検出する方法。次の値のいずれかとして指定します。

"weak-wolfe" — 弱 Wolfe 条件を満たす学習率を検索します。この方法は、逆ヘッセ行列の正定値近似を維持します。
"strong-wolfe" — 強 Wolfe 条件を満たす学習率を検索します。この方法は、逆ヘッセ行列の正定値近似を維持します。
"backtracking" — 十分な減少条件を満たす学習率を検索します。この方法は、逆ヘッセ行列の正定値近似を維持しません。

このオプションは、L-BFGS ソルバーのみをサポートします (引数 solverName が "lbfgs" の場合)。

`HistorySize` — 保存する状態更新の数
10 (既定値) | 正の整数

R2023b 以降

保存する状態更新の数。正の整数として指定します。ほとんどのタスクには 3 ～ 20 の値が適しています。

L-BFGS アルゴリズムは、勾配計算の履歴を使用してヘッセ行列を再帰的に近似します。詳細については、メモリ制限 BFGSを参照してください。

このオプションは、L-BFGS ソルバーのみをサポートします (引数 solverName が "lbfgs" の場合)。

`InitialInverseHessianFactor` — 逆ヘッセ行列の近似を特徴付ける初期値
`1` (既定値) | 正のスカラー

R2023b 以降

逆ヘッセ行列の近似を特徴付ける初期値。正のスカラーとして指定します。

メモリを節約するため、L-BFGS アルゴリズムでは密なヘッセ行列 B の保存や反転は行われません。代わりに、アルゴリズムは近似 $B_{k - m}^{- 1} \approx λ_{k} I$ を使用します。ここで、m は履歴サイズであり、逆ヘッセ因子 $λ_{k}$ はスカラーです。また、I は単位行列です。このアルゴリズムは、スカラーの逆ヘッセ因子のみを格納します。アルゴリズムは各ステップで逆ヘッセ因子を更新します。

逆ヘッセ因子の初期値は、 $λ_{0}$ の値です。

詳細については、メモリ制限 BFGSを参照してください。

このオプションは、L-BFGS ソルバーのみをサポートします (引数 solverName が "lbfgs" の場合)。

`MaxNumLineSearchIterations` — 直線探索の反復の最大数
`20` (既定値) | 正の整数

R2023b 以降

学習率を決定するための直線探索の反復の最大数。正の整数として指定します。

このオプションは、L-BFGS ソルバーのみをサポートします (引数 solverName が "lbfgs" の場合)。

`InitialStepSize` — 最初の最適化ステップのおおよその最大絶対値
`[]` (既定値) | `"auto"` | 実数の有限スカラー

R2024b 以降

初期ステップサイズ。次のいずれかの値として指定します。

[] — 初期ヘッセ近似の決定に初期ステップサイズを使用しません。
"auto" — 初期ステップサイズを自動的に決定します。ソフトウェアは、初期ステップサイズ $‖ s_{0} ‖_{\infty} = \frac{1}{2} ‖ W_{0} ‖_{\infty} + 0.1$ を使用します。ここで、W₀ はネットワークの初期の学習可能なパラメーターです。
正の実数スカラー — 指定された値を初期ステップサイズ $‖ s_{0} ‖_{\infty}$ として使用します。

InitialStepSize が "auto" または正の実数スカラーの場合、ソフトウェアは $λ_{0} = \frac{‖ s_{0} ‖_{\infty}}{‖ \nabla J (W_{0}) ‖_{\infty}}$ を使用して初期逆ヘッセ行列を近似します。ここで、λ₀ は初期逆ヘッセ行列係数であり、 $\nabla J (W_{0})$ は初期の学習可能なパラメーターに関する損失の勾配を示します。詳細については、メモリ制限 BFGSを参照してください。

このオプションは、L-BFGS ソルバーのみをサポートします (引数 solverName が "lbfgs" の場合)。

`InitialDampingFactor` — 初期減衰係数
`0.001` (既定値) | 正のスカラー

R2024b 以降

初期減衰係数。正のスカラーとして指定します。

このオプションは、LM ソルバーのみをサポートします (solverName 引数が "lm" の場合)。

`MaxDampingFactor` — 最大減衰係数
`1e10` (既定値) | 正のスカラー

R2024b 以降

最大減衰係数。正のスカラーとして指定します。

このオプションは、LM ソルバーのみをサポートします (solverName 引数が "lm" の場合)。

`DampingIncreaseFactor` — 減衰係数を増加させる係数
`10` (既定値) | 1 より大きい正のスカラー

R2024b 以降

減衰係数を増加させる係数。1 より大きい正のスカラーとして指定します。

このオプションは、LM ソルバーのみをサポートします (solverName 引数が "lm" の場合)。

`DampingDecreaseFactor` — 減衰係数を減少させる係数
`0.1` (既定値) | 1 未満の正のスカラー

R2024b 以降

減衰係数を減少させる係数。1 未満の正のスカラーとして指定します。

検証

すべて展開する

`ValidationData` — 学習中の検証に使用するデータ
`[]` (既定値) | データストア | table | cell 配列 | `minibatchqueue` オブジェクト (R2024a 以降)

学習中の検証で使用するデータ。[] として指定するか、検証予測子と検証ターゲットを含むデータストア、table、cell 配列、または minibatchqueue オブジェクトとして指定します。

学習中に、ソフトウェアは検証データを使用して検証損失とメトリクス値を計算します。検証頻度を指定するには、ValidationFrequency 学習オプションを使用します。検証データを使用して、検証オブジェクティブメトリクスが改善されなくなったときに学習を自動的に停止することもできます。既定では、オブジェクティブメトリクスは損失に設定されます。自動検証停止をオンにするには、ValidationPatience 学習オプションを使用します。

ValidationData が [] の場合、学習中にニューラルネットワークが検証されません。

ニューラルネットワークに予測時と学習時で動作が異なる層 (ドロップアウト層など) がある場合、検証損失が学習損失より低くなる可能性があります。

検証データは、Shuffle 学習オプションに従ってシャッフルされます。Shuffle が "every-epoch" の場合、検証データはニューラルネットワークの各検証の前にシャッフルされます。

サポートされている形式は、使用する学習関数によって異なります。

関数 `trainnet`

データストア、table、minibatchqueue オブジェクト、または cell 配列 {predictors,targets} として検証データを指定します。ここで、predictors には検証予測子を格納し、targets には検証ターゲットを格納します。trainnet 関数でサポートされているいずれかのレイアウトを使用して、検証予測子と検証ターゲットの値を指定します。

詳細については、関数 trainnet の入力引数を参照してください。

関数 `trainBERTDocumentClassifier` (Text Analytics Toolbox)

検証データを次のいずれかの値として指定します。

cell 配列 {documents,targets}。ここで、documents には入力文書を格納し、targets には文書のラベルを格納する。
table。ここで、最初の変数には入力文書を格納し、2 番目の変数には文書のラベルを格納する。

詳細については、関数 trainBERTDocumentClassifier (Text Analytics Toolbox) の入力引数を参照してください。

`ValidationFrequency` — ニューラルネットワークの検証の頻度
`50` (既定値) | 正の整数

反復回数で示されるニューラルネットワークの検証の頻度。正の整数として指定します。

ValidationFrequency の値は、検証メトリクスの評価間の反復回数です。検証データを指定するには、ValidationData 学習オプションを使用します。

`ValidationPatience` — 検証停止までの待機回数
`Inf` (既定値) | 正の整数

ニューラルネットワークの学習の検証を停止するまでの待機回数。正の整数または Inf として指定します。

ValidationPatience は、ニューラルネットワークの学習が停止するまでに、検証セットでのオブジェクティブメトリクスが前の最良値以下になることが許容される回数を指定します。ValidationPatience が Inf の場合、検証メトリクスの値によって学習が早期に停止することはありません。ソフトウェアは、メトリクスの Maximize プロパティの指定に従って、メトリクスを最大化または最小化しようと試みます。オブジェクティブメトリクスが "loss" の場合、ソフトウェアは損失値を最小化しようと試みます。

返されるニューラルネットワークは、OutputNetwork 学習オプションによって異なります。検証メトリクス値が最良のニューラルネットワークを返すようにするには、OutputNetwork 学習オプションを "best-validation" に設定します。

R2024a より前: ソフトウェアは、検証損失値を使用して検証の許容回数を計算します。

`OutputNetwork` — 学習完了時に返すニューラルネットワーク
`"auto"` (既定値) | `"last-iteration"` | `"best-validation"`

学習完了時に返すニューラルネットワーク。次のいずれかとして指定します。

"auto" – ValidationData が指定されている場合は "best-validation" を使用します。それ以外の場合は "last-iteration" を使用します。
"best-validation" – 検証メトリクス値が最良となる学習反復に対応するニューラルネットワークを返します。最適化するメトリクスは ObjectiveMetricName オプションで指定します。このオプションを使用するには、ValidationData 学習オプションを指定しなければなりません。
"last-iteration" – 最後の学習反復に対応するニューラルネットワークを返す。

正則化と正規化

すべて展開する

`L2Regularization` — L₂ 正則化の係数
`0.0001` (既定値) | 非負のスカラー

L₂ 正則化 (重み減衰) の係数。非負のスカラーとして指定します。詳細については、L2 正則化を参照してください。

このオプションは、LM ソルバーをサポートしません (solverName 引数が "lm" の場合)。

`ResetInputNormalization` — 入力層の正規化をリセットするオプション
`1` (`true`) (既定値) | `0` (`false`)

入力層の正規化をリセットするオプション。次のいずれかに指定します。

1 (true) — 入力層の正規化統計量をリセットし、学習時に再計算します。
0 (false) — 正規化統計量が空の場合、学習時に計算します。

`BatchNormalizationStatistics` — バッチ正規化層の統計量を評価するモード
`"auto"` (既定値) | `"population"` | `"moving"`

バッチ正規化層の統計量を評価するモード。次のいずれかとして指定します。

"population" — 母集団の統計量を使用します。学習終了後に学習データが再度渡され、その結果得られる平均と分散を使用して最終的な統計量が決定されます。
"moving" — 学習中、以下の更新ステップで与えられる実行時推定を使用して統計量を近似します。

$\begin{array}{l} μ^{*} = λ_{μ} \hat{μ} + (1 - λ_{μ}) μ \\ σ^{2}^{*} = λ_{σ^{2}} \hat{σ^{2}} + (1- λ_{σ^{2}}) σ^{2} \end{array}$
ここで、 $μ^{*}$ と $σ^{2}^{*}$ はそれぞれ更新後の平均と分散、 $λ_{μ}$ と $λ_{σ^{2}}$ はそれぞれ平均と分散の減衰値、 $\hat{μ}$ と $\hat{σ^{2}}$ はそれぞれ層入力の平均と分散、 $μ$ と $σ^{2}$ はそれぞれ移動平均と分散の値の最新値を表します。学習終了後、最後に得られた移動平均と分散の値が使用されます。このオプションは、CPU および単一の GPU による学習のみをサポートします。
"auto" — "moving" オプションを使用します。

勾配クリップ

すべて展開する

`GradientThreshold` — 勾配しきい値
`Inf` (既定値) | 正のスカラー

勾配しきい値。Inf または正のスカラーとして指定します。勾配が GradientThreshold の値を超えた場合、勾配は GradientThresholdMethod 学習オプションに応じてクリップされます。

詳細については、勾配クリップを参照してください。

このオプションは、LM ソルバーをサポートしません (solverName 引数が "lm" の場合)。

`GradientThresholdMethod` — 勾配しきい値法
`"l2norm"` (既定値) | `"global-l2norm"` | `"absolute-value"`

勾配しきい値を超えた勾配の値をクリップするために使用する勾配しきい値法。次のいずれかに指定します。

"l2norm" — 学習可能なパラメーターの勾配の L₂ ノルムが GradientThreshold より大きい場合は、L₂ ノルムが GradientThreshold に等しくなるように勾配をスケーリングします。
"global-l2norm" — グローバル L₂ ノルム L が GradientThreshold より大きい場合は、すべての勾配を GradientThreshold/L 倍にスケーリングします。グローバル L₂ ノルムでは、すべての学習可能なパラメーターが考慮されます。
"absolute-value" — 学習可能なパラメーターの勾配に含まれる偏微分のうち、絶対値が GradientThreshold より大きいものについては、偏微分の符号を維持したまま、大きさが GradientThreshold に等しくなるように偏微分をスケーリングします。

詳細については、勾配クリップを参照してください。

このオプションは、LM ソルバーをサポートしません (solverName 引数が "lm" の場合)。

シーケンス

すべて展開する

`SequenceLength` — シーケンスのパディングまたは切り捨てを行うオプション
`"longest"` (既定値) | `"shortest"`

入力シーケンスのパディング、切り捨て、または分割を行うオプション。次の値のいずれかとして指定します。

"longest" — 各ミニバッチで、最長のシーケンスと同じ長さになるようにシーケンスのパディングを行います。このオプションを使用するとデータは破棄されませんが、パディングによってニューラルネットワークにノイズが生じることがあります。
"shortest" — 各ミニバッチで、最短のシーケンスと同じ長さになるようにシーケンスの切り捨てを行います。このオプションを使用するとパディングは追加されませんが、データが破棄されます。

シーケンスのパディングと切り捨ての効果の詳細については、シーケンスのパディングと切り捨てを参照してください。

`SequencePaddingDirection` — パディングまたは切り捨ての方向
`"right"` (既定値) | `"left"`

パディングまたは切り捨ての方向。次のいずれかのオプションとして指定します。

"right" — シーケンスの右側に対してパディングまたは切り捨てを行います。シーケンスは同じタイムステップで始まり、ソフトウェアによって各シーケンスの末尾に対して切り捨てまたはパディングの追加が行われます。
"left" — シーケンスの左側に対してパディングまたは切り捨てを行います。各シーケンスが同じタイムステップで終わるように、ソフトウェアによって各シーケンスの先頭に対して切り捨てまたはパディングの追加が行われます。

再帰層は 1 タイムステップずつシーケンスデータを処理するため、再帰層の OutputMode プロパティが "last" の場合、最後のタイムステップでパディングを行うと層の出力に悪影響を与える可能性があります。シーケンスデータの左側に対してパディングまたは切り捨てを行うには、名前と値の引数 SequencePaddingDirection を "left" に設定します。

sequence-to-sequence ニューラルネットワークの場合 (各再帰層について OutputMode プロパティが "sequence" である場合)、最初のタイムステップでパディングを行うと、それ以前のタイムステップの予測に悪影響を与える可能性があります。シーケンスデータの右側に対してパディングまたは切り捨てを行うには、名前と値の引数 SequencePaddingDirection を "right" に設定します。

シーケンスのパディングと切り捨ての効果の詳細については、シーケンスのパディングと切り捨てを参照してください。

`SequencePaddingValue` — 入力シーケンスをパディングする値
`0` (既定値) | スカラー

入力シーケンスをパディングする値。スカラーとして指定します。

ニューラルネットワーク全体にエラーが伝播される可能性があるため、NaN でシーケンスをパディングしないでください。

ハードウェアと高速化

すべて展開する

`ExecutionEnvironment` — ニューラルネットワークの学習用のハードウェアリソース
`"auto"` (既定値) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel-auto"` | `"parallel-cpu"` | `"parallel-gpu"`

ニューラルネットワークの学習用のハードウェアリソース。次のいずれかの値として指定します。

"auto" – 利用可能な場合、ローカル GPU を使用します。そうでない場合、ローカル CPU を使用します。
"cpu" – ローカル CPU を使用します。
"gpu" – ローカル GPU を使用します。
"multi-gpu" — 既定のクラスタープロファイルに基づいてローカルの並列プールを使用して、1 つのマシンで複数の GPU を使用します。現在の並列プールがない場合、使用可能な GPU の数と等しいプールサイズの並列プールが起動されます。
"parallel-auto" – ローカルまたはリモートの並列プールを使用します。現在の並列プールがない場合、既定のクラスタープロファイルを使用して 1 つのプールが起動されます。プールから GPU にアクセスできる場合、固有の GPU をもつワーカーのみが学習計算を実行し、余ったワーカーはアイドル状態になります。プールに GPU がない場合、代わりに使用可能なすべての CPU ワーカーで学習が実行されます。 (R2024a 以降)
R2024a より前: 代わりに "parallel" を使用してください。
"parallel-cpu" – ローカルまたはリモートの並列プールにある CPU リソースを使用し、GPU は無視します。現在の並列プールがない場合、既定のクラスタープロファイルを使用して 1 つのプールが起動されます。 (R2023b 以降)
"parallel-gpu" – ローカルまたはリモートの並列プールにある GPU を使用します。余ったワーカーはアイドル状態になります。現在の並列プールがない場合、既定のクラスタープロファイルを使用して 1 つのプールが起動されます。 (R2023b 以降)

"gpu"、"multi-gpu"、"parallel-auto"、"parallel-cpu"、および "parallel-gpu" のオプションを使用するには、Parallel Computing Toolbox™ が必要です。深層学習に GPU を使用するには、サポートされている GPU デバイスもなければなりません。サポートされているデバイスの詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。これらのいずれかのオプションの選択時に Parallel Computing Toolbox または適切な GPU を利用できない場合、エラーが返されます。

さまざまな実行環境をどのような場合に使用するかの詳細は、Scale Up Deep Learning in Parallel, on GPUs, and in the Cloudを参照してください。

並列学習の実行時に性能の改善を確認するには、MiniBatchSize および InitialLearnRate 学習オプションを GPU の数でスケールアップしてみてください。

"multi-gpu"、"parallel-auto"、"parallel-cpu"、および "parallel-gpu" オプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

`PreprocessingEnvironment` — データの取得と前処理を行うための環境
`"serial"` (既定値) | `"background"` | `"parallel"`

R2024a 以降

学習時にデータストアからデータを取得して前処理を行うための環境。次のいずれかの値として指定します。

"serial" – データの取得と前処理は逐次実行されます。
"background" – バックグラウンドプールを使用してデータの取得と前処理が行われます。
"parallel" – 並列ワーカーを使用してデータの取得と前処理が行われます。ローカルプールが開かれていなければ、ソフトウェアは既定のプロファイルを使用して並列プールを開きます。ローカルではない並列プールはサポートされません。このオプションを使用するには、Parallel Computing Toolbox が必要です。並列で学習させる場合 (ExecutionEnvironment オプションが "parallel-auto"、"parallel-cpu"、"parallel-gpu"、または "multi-gpu" の場合)、このオプションはサポートされません。

"background" オプションまたは "parallel" オプションを使用するには、入力データストアがサブセット化可能または分割可能でなければなりません。カスタムデータストアには matlab.io.datastore.Subsettable クラスが実装されていなければなりません。

Shuffle オプションが "never" の場合、"background" オプションおよび "parallel" オプションはサポートされません。

"background" オプションおよび "parallel" オプションを使用した場合、deep.gpu.deterministicAlgorithms 関数を使用しても学習は非確定的になります。

ミニバッチに大幅な前処理が必要な場合は、"background" オプションを使用します。前処理がスレッドでサポートされていない場合、またはワーカー数を制御する必要がある場合は、"parallel" オプションを使用します。前処理環境の詳細については、Preprocess Data in the Background or in Parallelを参照してください。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

R2024a より前: データを並列で前処理するには、DispatchInBackground 学習オプションを 1 (true) に設定します。

`Acceleration` — パフォーマンスの最適化
`"auto"` (既定値) | `"none"`

R2024a 以降

パフォーマンスの最適化。次のいずれかの値として指定します。

"auto" – 入力ネットワークとハードウェアリソースに適した最適化の回数を自動的に適用します。
"none" – すべての最適化を無効にします。

"auto" 高速化オプションを使用すると、パフォーマンス上のメリットが得られますが、初期実行時間が長くなります。互換性のあるパラメーターを使用した後続の呼び出しは、より高速になります。サイズと形状が同じである異なる入力データを使用して関数を複数回呼び出す場合は、パフォーマンスの最適化を使用してください。

チェックポイント

すべて展開する

`CheckpointPath` — チェックポイントニューラルネットワークの保存用のパス
`""` (既定値) | string スカラー | 文字ベクトル

チェックポイントニューラルネットワークの保存用のパス。string スカラーまたは文字ベクトルとして指定します。

パスを指定しない (既定の "" を使用する) 場合、チェックポイントニューラルネットワークは保存されません。
パスを指定すると、ソフトウェアによってこのパスにチェックポイントニューラルネットワークが保存され、各ニューラルネットワークに一意の名前が割り当てられます。その後、いずれかのチェックポイントニューラルネットワークを読み込み、そのニューラルネットワークから学習を再開できます。
フォルダーが存在していない場合、チェックポイントニューラルネットワークを保存するパスを指定する前に、まずフォルダーを作成しなければなりません。指定したパスが存在していない場合、ソフトウェアはエラーをスローします。

データ型: char | string

`CheckpointFrequency` — チェックポイントニューラルネットワークを保存する頻度
正の整数

チェックポイントニューラルネットワークを保存する頻度。正の整数として指定します。

solverName が "lbfgs" であるか CheckpointFrequencyUnit が "iteration" である場合、CheckpointFrequency 回の反復ごとにチェックポイントニューラルネットワークが保存されます。それ以外の場合、ソフトウェアは CheckpointFrequency エポックごとにチェックポイントニューラルネットワークを保存します。

solverName が "sgdm"、"adam"、または "rmsprop" の場合、既定値は 1 です。solverName が "lbfgs" または "lm" の場合、既定値は 30 です。

このオプションは、CheckpointPath が空でない場合にのみ有効です。

`CheckpointFrequencyUnit` — チェックポイントの頻度の単位
`"epoch"` (既定値) | `"iteration"`

チェックポイントの頻度の単位。"epoch" または "iteration" として指定します。

CheckpointFrequencyUnit が "epoch" の場合、ソフトウェアは CheckpointFrequency エポックごとにチェックポイントニューラルネットワークを保存します。

CheckpointFrequencyUnit が "iteration" の場合、ソフトウェアは CheckpointFrequency 回の反復ごとにチェックポイントニューラルネットワークを保存します。

このオプションは、CheckpointPath が空でない場合にのみ有効です。

このオプションは、確率的ソルバーのみをサポートします (引数 solverName が "sgdm"、"adam"、または "rmsprop" の場合)。

出力引数

すべて折りたたむ

`options` — 学習オプション
`TrainingOptionsSGDM` | `TrainingOptionsRMSProp` | `TrainingOptionsADAM` | `TrainingOptionsLBFGS` | `TrainingOptionsLM`

学習オプション。TrainingOptionsSGDM オブジェクト、TrainingOptionsRMSProp オブジェクト、TrainingOptionsADAM オブジェクト、TrainingOptionsLBFGS オブジェクト、TrainingOptionsLM オブジェクトとして返されます。ニューラルネットワークに学習させるには、学習オプションを関数 trainnet への入力引数として使用します。

ヒント

ほとんどの深層学習タスクでは、事前学習済みのニューラルネットワークを使用して独自のデータに適応させることができます。転移学習を使用して、畳み込みニューラルネットワークの再学習を行い、新しい一連のイメージを分類する方法を示す例については、新しいイメージを分類するためのニューラルネットワークの再学習を参照してください。または、関数 trainnet と関数 trainingOptions を使用してニューラルネットワークを作成し、これにゼロから学習させることができます。
タスクに必要な学習オプションが関数 trainingOptions に用意されていない場合、自動微分を使用してカスタム学習ループを作成できます。詳細については、カスタム学習ループを使用したネットワークの学習を参照してください。
タスクに必要な損失関数が関数 trainnet に用意されていない場合、カスタム損失関数を関数ハンドルとして trainnet に指定できます。損失関数が予測とターゲットよりも多くの入力を必要とする場合 (たとえば、損失関数がニューラルネットワークまたは追加の入力にアクセスする必要がある場合)、カスタム学習ループを使用してモデルに学習させます。詳細については、カスタム学習ループを使用したネットワークの学習を参照してください。
タスクに必要な層が Deep Learning Toolbox™ に用意されていない場合、カスタム層を作成できます。詳細については、カスタム深層学習層の定義を参照してください。層のネットワークとして指定できないモデルの場合は、モデルを関数として定義できます。詳細については、モデル関数を使用したネットワークの学習を参照してください。
どのタスクでどの学習手法を使用するかについての詳細は、MATLAB による深層学習モデルの学習を参照してください。

アルゴリズム

すべて折りたたむ

初期の重みとバイアス

畳み込み層と全結合層の場合、重みとバイアスの初期化はそれぞれ層のWeightsInitializer プロパティと BiasInitializer プロパティによって与えられます。重みとバイアスの初期化を変更する方法を示す例については、畳み込み層の初期の重みとバイアスの指定および全結合層の初期の重みとバイアスの指定を参照してください。

確率的勾配降下法

標準の勾配降下法アルゴリズムは、各反復で損失の負の勾配の方向に小さいステップで進むことによって損失関数を最小化するように、ネットワークパラメーター (重みとバイアス) を更新します。

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}),$

ここで、 $ℓ$ は反復回数、 $α > 0$ は学習率、 $θ$ はパラメーターベクトル、 $E (θ)$ は損失関数を意味します。標準の勾配降下法アルゴリズムでは、損失関数の勾配 $\nabla E (θ)$ は、学習セット全体を使用して評価されます。標準の勾配降下法アルゴリズムでは、データセット全体を一度に使用します。

一方、"確率的" 勾配降下法アルゴリズムは、各反復で学習データのサブセットを使用して勾配を評価し、パラメーターを更新します。各反復ではミニバッチと呼ばれる別のサブセットが使用されます。ミニバッチを使用して、学習セット全体に対する学習アルゴリズムを一巡することを、1 "エポック" と言います。確率的勾配降下が確率的と言われるのは、ミニバッチを使用して計算されたパラメーター更新が、データセット全体を使用して得られるパラメーター更新のノイズを含む推定であるためです。

モーメンタム項付き確率的勾配降下法

確率的勾配降下法アルゴリズムは、最適値への最急降下経路に沿って振動することがあります。パラメーター更新へのモーメンタム項の追加は、この振動を減らす方法の 1 つです[2]。モーメンタム項付き確率的勾配降下法 (SGDM) の更新は、以下のとおりです。

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}) + γ (θ_{ℓ} - θ_{ℓ - 1}),$

ここで、学習率 α とモーメンタム項の値 $γ$ は、前の勾配ステップから現在の反復への寄与を決定します。

平方根平均二乗伝播

モーメンタム項付き確率的勾配降下法は、すべてのパラメーターに対して 1 つの学習率を使用します。その他の最適化アルゴリズムでは、パラメーターごとに異なり、最適化対象の損失関数に自動的に適応できる学習率を使用して、ネットワーク学習の改善を試みます。平方根平均二乗伝播 (RMSProp) はそのようなアルゴリズムの 1 つです。これは、パラメーターの勾配について要素単位の二乗の移動平均を維持します。

$v_{ℓ} = β_{2} v_{ℓ - 1} + (1 - β_{2}) {[\nabla E (θ_{ℓ})]}^{2}$

β₂ は、移動平均の二乗勾配減衰係数です。減衰率の一般的な値は、0.9、0.99、および 0.999 です。対応する勾配の二乗の平均化長は、1/(1-β₂) に等しく、それぞれ 10、100、および 1000 回のパラメーター更新です。RMSProp アルゴリズムでは、この移動平均を使用して各パラメーターの更新を個別に正規化します。

$θ_{ℓ + 1} = θ_{ℓ} - \frac{α \nabla E (θ_{ℓ})}{\sqrt{v_{ℓ}} + ϵ}$

ここで、除算は要素単位で実行されます。RMSProp を使用すると、勾配が大きいパラメーターの学習率は効果的に減少し、勾配が小さいパラメーターの学習率は増加します。ɛ は、ゼロ除算を回避するために追加する小さい定数です。

適応モーメント推定

適応モーメント推定 (Adam) [4]では、RMSProp に似ているが、モーメンタム項が追加されたパラメーター更新を使用します。これは、パラメーターの勾配とそれらの二乗値の両方について要素単位の移動平均を維持します。

$m_{ℓ} = β_{1} m_{ℓ - 1} + (1 - β_{1}) \nabla E (θ_{ℓ})$

$v_{ℓ} = β_{2} v_{ℓ - 1} + (1 - β_{2}) {[\nabla E (θ_{ℓ})]}^{2}$

減衰率 β₁ と β₂ は、それぞれ勾配減衰係数および二乗勾配減衰係数です。Adam では、移動平均を使用してネットワークパラメーターを次のように更新します。

$θ_{ℓ + 1} = θ_{ℓ} - \frac{α m_{l}}{\sqrt{v_{l}} + ϵ}$

値 α は学習率です。多数の反復に対する勾配が類似している場合、勾配の移動平均を使用すると、パラメーター更新で特定方向のモーメンタム項を選択できます。勾配のほとんどがノイズである場合、勾配の移動平均が小さくなり、パラメーター更新も小さくなります。Adam の完全な更新には、学習の最初に現れるバイアスを補正するメカニズムも含まれています。詳細については、[4]を参照してください。

メモリ制限 BFGS

L-BFGS アルゴリズム[5]は、Broyden-Fletcher-Goldfarb-Shanno (BFGS) アルゴリズムを近似する準ニュートン法です。L-BFGS アルゴリズムは、単一のバッチで処理できる小規模なネットワークやデータセットに使用します。

このアルゴリズムは、次で指定される更新ステップを使用し、反復 k+1 で学習可能なパラメーター W を更新します。

$W_{k + 1} = W_{k} - η_{k} B_{k}^{- 1} \nabla J (W_{k}),$

ここで、W_k は反復 k における重みを表し、 $η_{k}$ は反復 k における学習率です。B_k は反復 k におけるヘッセ行列の近似であり、 $\nabla J (W_{k})$ は反復 k における学習可能なパラメーターに関する損失の勾配を表します。

L-BFGS アルゴリズムは、行列とベクトルの積 $B_{k}^{- 1} \nabla J (W_{k})$ を直接計算します。このアルゴリズムでは、B_k の逆行列を計算する必要がありません。

行列とベクトルの積 $B_{k}^{- 1} \nabla J (W_{k})$ を直接計算するために、L-BFGS アルゴリズムは次の再帰的アルゴリズムを使用します。

$r = B_{k - m}^{- 1} \nabla J (W_{k})$ を設定します。ここで、m は履歴サイズです。
$i = m, \dots, 1$ について、以下のようにします。
1. $β = \frac{1}{s_{k - i}^{⊤} y_{k - i}} y_{k - i}^{⊤} r$ とします。ここで、 $s_{k - i}$ および $y_{k - i}$ は、それぞれ反復 $k - i$ に対するステップおよび勾配の差分です。
2. $r = r + s_{k - i} (a_{k - i} - β)$ を設定します。ここで、 $a$ は、 $s$ 、 $y$ 、および損失関数に対する損失の勾配から導出されます。詳細については、[5]を参照してください。
$B_{k}^{- 1} \nabla J (W_{k}) = r$ を返します。

レーベンバーグ・マルカート

LM アルゴリズム[6]は、勾配降下法とガウス・ニュートン法を補完するもので、小規模なニューラルネットワークのロバスト性を向上させます。ヤコビ外積を使用して 2 階微分を近似します。LM アルゴリズムは、学習可能なパラメーターの数が少なく、データセットを 1 つのバッチで処理できる回帰ネットワークに使用します。

アルゴリズムは、次で与えられる更新ステップを使用し、反復 k+1 で学習可能なパラメーター W を更新します。

$W_{k + 1} = W_{k} + Δ W_{k},$

ここで、ΔW_k は、次で与えられる反復 k での重みの変化です。

$Δ W_{k} = - {(H_{k})}^{- 1} \nabla E_{k} .$

ここで、H_k は反復 k での近似ヘッセ行列であり、 $\nabla E_{k}$ は、学習可能なパラメーターに関する反復 k での損失の勾配です。このアルゴリズムは、次を使用してヘッセ行列を近似します。

$H_{k} = J_{k}^{⊤} J_{k} + μ_{k} I,$

ここで、J_k は反復 k でのヤコビ行列、μ_k は反復 k での減衰係数、I は単位行列です。

ソルバーは、各反復で実行されるステップサイズを調整するために減衰係数を使用し、各反復で適応的に更新します。反復によって損失が増加すると減衰係数は増加し、損失が減少すると減衰係数は減少します。これらの調整により、オプティマイザーは、損失が増加しているときにはより大きなステップを、損失が減少しているときにはより小さなステップをそれぞれ実行するようになります。

ソルバーは、損失が増加した場合には DampingIncreaseFactor を、損失が減少した場合には DampingDecreaseFactor をそれぞれ乗算して、減衰係数を適応的に増減します。

勾配クリップ

勾配の大きさが指数関数的に増加する場合、学習は不安定になり、数回の反復で発散する場合があります。この "勾配爆発" は、学習損失が NaN または Inf になることによって示されます。勾配クリップは、学習率が大きい場合や外れ値が存在する場合に学習を安定させることによって、勾配爆発を防ぎます[3]。勾配クリップを使用すると、ネットワークの学習が高速になり、通常は学習済みタスクの精度に影響はありません。

勾配クリップは 2 種類あります。

ノルムベースの勾配クリップでは、しきい値に基づいて勾配を再スケーリングし、勾配の方向は変更しません。GradientThresholdMethod の "l2norm" 値と "global-l2norm" 値は、ノルムベースの勾配クリップ法です。
値ベースの勾配クリップでは、しきい値より大きい任意の偏微分をクリップします。この場合、勾配の方向が任意に変化する可能性があります。値ベースの勾配クリップの動作は予測できないものになる場合がありますが、変化が十分に小さければ、ネットワークが発散することはありません。GradientThresholdMethod の値 "absolute-value" は、値ベースの勾配クリップ法です。

L₂ 正則化

損失関数 $E (θ)$ への重みの正則化項の追加は、過適合を抑える方法の 1 つです[1]、[2]。正則化項は、"重み減衰" とも呼ばれます。正則化項付きの損失関数は、以下の形式を取ります。

$E_{R} (θ) = E (θ) + λ Ω (w),$

ここで、 $w$ は重みベクトル、 $λ$ は正則化係数です。正則化関数 $Ω (w)$ は以下のようになります。

$Ω (w) = \frac{1}{2} w^{T} w .$

バイアスは正則化されないことに注意してください[2]。L2Regularization 学習オプションを使用して、正則化係数 $λ$ を指定できます。setL2Factor 関数を使用して、個々の層と学習可能なパラメーターの正則化係数を指定することもできます。

ネットワーク学習に使用される損失関数には、正則化項が含まれます。ただし、学習中にコマンドウィンドウと学習の進行状況プロットに表示される損失値はデータのみの損失であり、正則化項は含まれません。

参照

[1] Bishop, C. M. Pattern Recognition and Machine Learning. Springer, New York, NY, 2006.

[2] Murphy, K. P. Machine Learning: A Probabilistic Perspective. The MIT Press, Cambridge, Massachusetts, 2012.

[3] Pascanu, R., T. Mikolov, and Y. Bengio. "On the difficulty of training recurrent neural networks". Proceedings of the 30th International Conference on Machine Learning. Vol. 28(3), 2013, pp. 1310–1318.

[4] Kingma, Diederik, and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).

[5] Liu, Dong C., and Jorge Nocedal. "On the limited memory BFGS method for large scale optimization." Mathematical programming 45, no. 1 (August 1989): 503-528. https://doi.org/10.1007/BF01589116.

[6] Marquardt, Donald W. “An Algorithm for Least-Squares Estimation of Nonlinear Parameters.” Journal of the Society for Industrial and Applied Mathematics 11, no. 2 (June 1963): 431–41. https://doi.org/10.1137/0111030.

バージョン履歴

R2016a で導入

すべて展開する

R2025a: categorical 入力と categorical ターゲットの数値符号化の指定

ニューラルネットワークに学習させるために categorical 入力と categorical ターゲットを数値に変換する方法を指定するには、それぞれ CategoricalInputEncoding 引数と CategoricalTargetEncoding 引数を使用します。

R2025a: 勾配とステップの許容誤差をゼロとして指定

L-BFGS または LM ソルバーを使用するときに、相対勾配またはステップサイズの値によって学習が停止しないようにするには、trainingOptions 関数の GradientTolerance 引数と StepTolerance 引数をそれぞれ 0 に設定します。

R2025a: メトリクス:R² メトリクスの監視およびプロット

学習時に R² メトリクスを監視してプロットします。

このメトリクスを使用して学習時の動作を監視およびプロットするには、Metrics を使用して指定します。"rsquared" を指定することも、より高度なカスタマイズが必要な場合には RSquaredMetric オブジェクトを作成することもできます。

R2024b: より多くの学習率スケジュールを使用したニューラルネットワークの学習

以下の学習率スケジュールを trainingOptions 関数の LearnRateSchedule 引数として指定して、ニューラルネットワークに学習させます。

"warmup" — ウォームアップ学習率スケジュール
"polynomial" — 多項式学習率スケジュール
"exponential" — 指数学習率スケジュール
"cosine" — 余弦学習率スケジュール
"cyclical" — 周期的学習率スケジュール

これらの学習率スケジュールをカスタマイズするには、以下のオブジェクトを使用します。

warmupLearnRate — ウォームアップ学習率スケジュールオブジェクト
polynomialLearnRate — 多項式学習率スケジュール
exponentialLearnRate — 指数学習率スケジュール
cosineLearnRate — 余弦学習率スケジュール
cyclicalLearnRate — 周期的学習率スケジュール

以前のバージョンでは、区分的学習率スケジュールを使用するか、学習率スケジュールなしで学習させることができました。

既存の区分的学習率スケジュールをカスタマイズするには、piecewiseLearnRate オブジェクトを使用します。

カスタムスケジュールを指定するには、構文 learnRate = f(initialLearnRate,epoch) で関数ハンドルを使用するか、deep.LearnRateSchedule から継承するクラスを定義して独自のカスタム学習率スケジュールオブジェクトを定義します。

R2024b: レーベンバーグ・マルカートソルバーを使用した学習

レーベンバーグ・マルカート (LM) ソルバーを使用してニューラルネットワークに学習させます。LM アルゴリズムは、学習可能なパラメーターの数が少なく、データセットを 1 つのバッチで処理できる回帰ネットワークに使用します。

trainnet 関数で LM ソルバーを使用するには、solverName 引数を "lm" として指定して TrainingOptionsLM オブジェクトを作成します。次の新しい学習オプションを使用して、LM ソルバーをカスタマイズできます。

InitialDampingFactor — 初期減衰係数
MaxDampingFactor — 最大減衰係数
DampingDecreaseFactor — 減衰減少係数
DampingIncreaseFactor — 減衰増加係数

R2024b: 学習時におけるより多くの指標の監視およびプロット

学習時およびテスト時に、新しいメトリクスオブジェクトや更新されたメトリクスオブジェクトを使用します。

MAPEMetric — 平均絶対誤差率 (MAPE)
新しい NumTopKClasses オプション付きの AccuracyMetric — 上位 k 位の精度
新しい Beta オプション付きの FScoreMetric — F_β スコア

以下の新しい組み込みのメトリクスと損失名を直接指定することもできます。

"mape" — 平均絶対誤差率 (MAPE)
"crossentropy" — クロスエントロピー損失
"index-crossentropy" — インデックスクロスエントロピー損失
"binary-crossentropy" — バイナリクロスエントロピー損失
"mse" / "mean-squared-error" / "l2loss" — 平均二乗誤差
"mae" / "mean-absolute-error" / "l1loss" — 平均絶対誤差
"huber" — Huber 損失

R2024b: L-BFGS ソルバーの初期ステップサイズの指定

InitialStepSize 引数を使用して、L-BFGS ソルバーの初期ステップサイズを指定します。

R2024a: `minibatchqueue` オブジェクトを使用した検証データの指定

引数 ValidationData を使用して、検証データを minibatchqueue オブジェクトとして指定します。

R2024a: パフォーマンスの自動最適化

パフォーマンスの自動最適化によって、学習が高速化されます。関数 trainnet を使用してネットワークに学習させる場合、パフォーマンスの自動最適化は既定で有効になります。関数 trainingOptions を使用して Acceleration オプションを "none" に設定することで、パフォーマンスの最適化を無効にできます。

R2024a: `deep.DifferentiableFunction` オブジェクトとしてのメトリクスの指定

メトリクスを deep.DifferentiableFunction オブジェクトとして指定します。

R2024a: `SequenceLength` を整数に設定することは非推奨

SequenceLength を整数に設定することは推奨されません。代わりに、SequenceLength を "longest" または "shortest" に設定してください。

trainNetwork のワークフロー (非推奨) では、SequenceLength を整数に設定できます。SequenceLength が整数の場合、ソフトウェアは、各ミニバッチについて、そのミニバッチ内で最も長いシーケンスに合わせてシーケンスをパディングした後、指定した長さのより小さいシーケンスに分割します。分割が発生した場合、ソフトウェアは、追加のミニバッチを作成し、それらのミニバッチ間のネットワーク再帰状態を更新します。指定したシーケンス長によってデータのシーケンスを均等に分割できない場合、最後のシーケンスを含むミニバッチの長さは指定した長さより短くなります。

R2024a: `DispatchInBackground` 学習オプションは非推奨

DispatchInBackground 学習オプションは推奨されません。代わりに PreprocessingEnvironment オプションを使用してください。

PreprocessingEnvironment オプションは同じ機能を提供します。また、このオプションを使用すると、PreprocessingEnvironment を "background" に設定したときに、前処理で backgroundPool を使用することができます。

コードを更新する方法を次の表に示します。

非推奨	推奨
`trainingOptions(solverName,DispatchInBackground=false)` (既定)	`trainingOptions(solverName,PreprocessingEnvironment="serial")` (既定)
`trainingOptions(solverName,DispatchInBackground=true)`	`trainingOptions(solverName,PreprocessingEnvironment="parallel")`

DispatchInBackground オプションを削除する予定はありません。

R2024a: `OutputNetwork` の既定は `"auto"`

R2024a 以降、OutputNetwork 学習オプションの既定値は "auto" になります。検証データを指定した場合、ソフトウェアは最良の検証メトリクス値に対応するネットワークを返します。検証データを指定しなかった場合、ソフトウェアは最後の学習反復に対応するネットワークを返します。検証データがあるときに以前の既定値を再現するには、OutputNetwork を "last-iteration" に設定します。

この変更は、学習オプションを trainnet と共に使用している場合にのみ適用されます。学習オプションを関数 trainNetwork と共に使用している場合、動作に変更はなく、ソフトウェアは既定で最後の学習反復に対応するネットワークを返します。

R2024a: `OutputNetwork` の値 `"best-validation-loss"` は非推奨

OutputNetwork を "best-validation-loss" として指定することは推奨されません。コードで OutputNetwork が "best-validation-loss" に設定されている場合、代わりに "best-validation" を使用してください。ソフトウェアは、ObjectiveMetricName オプションで指定された最良の検証メトリクス値に対応するネットワークを返します。既定では、ObjectiveMetricName の値は "loss" に設定されています。この動作は、学習オプションを関数 trainnet と共に使用した場合にのみ適用されます。

学習オプションを関数 trainNetwork と共に使用し、OutputNetwork を "best-validation" として指定した場合、ソフトウェアは、検証損失値が最良であるネットワークを常に返します。

R2024a: `ExecutionEnvironment` の値 `"parallel"` は非推奨

R2024a 以降、ExecutionEnvironment オプションを "parallel" として指定することは推奨されません。代わりに "parallel-auto" を使用してください。

"parallel-auto" は、"parallel" と比べて次の利点があります。

ソフトウェアは、利用可能なあらゆるハードウェアを使用して自動的に並列学習を行うため、このオプションの名前は実行環境をより正確に表しています。
このオプションの名前は、逐次版の "auto" と整合性があります。

"parallel" オプションを削除する予定はありません。"parallel-auto" は関数 trainnet のみをサポートします。学習オプションを関数 trainNetwork と共に使用している場合は、引き続き "parallel" を使用してください。

R2024a: `WorkerLoad` 学習オプションは非推奨

R2024a 以降、WorkerLoad 学習オプションの指定は推奨されません。代わりに、spmd (Parallel Computing Toolbox) または環境変数 CUDA_VISIBLE_DEVICES を使用してください。

関数 trainNetwork を使用する学習ネットワークの WorkerLoad のサポートを削除する予定はありません。WorkerLoad は、関数 trainnet を使用する学習ネットワークではサポートされません。

WorkerLoad の代表的な使用法と、代わりに spmd または環境変数 CUDA_VISIBLE_DEVICES を使用するためのコードの更新方法を、次の表に示します。

非推奨	推奨
options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu", ... WorkerLoad=[1 1 0 1]);	% Alternative 1 pool = parpool(3); spmd if spmdIndex == 3 gpuDevice(spmdIndex + 1); else gpuDevice(spmdIndex); end end options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu"); % Alternative 2 % Set this environment variable immediately after your start MATLAB. setenv("CUDA_VISIBLE_DEVICES","0,1,3"); options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu");
options = trainingOptions(solver, ... ExecutionEnvironment="parallel", ... WorkerLoad=[1 1 0 1]);	pool = parpool(3); spmd if spmdIndex == 3 gpuDevice(spmdIndex + 1); else gpuDevice(spmdIndex); end end options = trainingOptions(solver, ... ExecutionEnvironment="parallel-auto");

非推奨

推奨

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu", ...
WorkerLoad=[1 1 0 1]);

% Alternative 1
pool = parpool(3);

spmd
    if spmdIndex == 3
        gpuDevice(spmdIndex + 1);
    else
        gpuDevice(spmdIndex);
    end
end

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu");

% Alternative 2
% Set this environment variable immediately after your start MATLAB.
setenv("CUDA_VISIBLE_DEVICES","0,1,3");

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu");

options = trainingOptions(solver, ...
ExecutionEnvironment="parallel", ...
WorkerLoad=[1 1 0 1]);

pool = parpool(3);

spmd
    if spmdIndex == 3
        gpuDevice(spmdIndex + 1);
    else
        gpuDevice(spmdIndex);
    end
end

options = trainingOptions(solver, ...
ExecutionEnvironment="parallel-auto");

これまで WorkerLoad オプションを使用してデータ前処理用のワーカーを予約していた場合は、PreprocessingEnvironment オプションを "background" として指定して、データをバックグラウンドで前処理することも検討してください。

R2023b: L-BFGS ソルバーを使用したニューラルネットワークの学習

L-BFGS ソルバーを使用してニューラルネットワークに学習させるには、solverName を "lbfgs" として指定します。L-BFGS アルゴリズムは、単一のバッチで処理できる小規模なネットワークやデータセットに使用します。L-BFGS ソルバーをカスタマイズするには、バッチソルバーのオプションプロパティを使用します。

このオプションは関数 trainnet のみをサポートします。

R2023b: 入力とターゲットのデータ形式の指定

入力とターゲットのデータ形式は、それぞれ InputDataFormats オプションおよび TargetDataFormats オプションを使用して指定します。

このオプションは関数 trainnet のみをサポートします。

R2023b: CPU リソースのみまたは GPU リソースのみを使用したニューラルネットワークの並列学習

ExecutionEnvironment を "parallel-cpu" または "parallel-gpu" として指定することで、特定のハードウェアリソースを使用してニューラルネットワークの並列学習を行います。

このオプションは関数 trainnet のみをサポートします。

R2023b: `BatchNormalizationStatistics` の既定は `"auto"`

R2023b 以降、BatchNormalizationStatistics 学習オプションの既定値は "auto" になります。

この変更は関数の動作には影響しません。BatchNormalizationStatistics プロパティをチェックするコードがある場合は、"auto" オプションに対応するようにコードを更新します。

R2022b: `SequenceLength` 学習オプションを整数として指定した場合、`trainNetwork` は、分割を行う前に最も長いシーケンスに合わせてミニバッチをパディングする

R2022b 以降、関数 trainNetwork を使用してシーケンスデータでニューラルネットワークに学習させるときに、SequenceLength オプションが整数である場合、各ミニバッチ内で最も長いシーケンスに合わせてシーケンスがパディングされた後、指定したシーケンス長でシーケンスが分割されてミニバッチが作成されます。SequenceLength によってミニバッチのシーケンスを均等に分割できない場合、最後に分割されたミニバッチの長さは SequenceLength より短くなります。この動作によって、パディング値しか含まれないタイムステップでニューラルネットワークの学習が行われるのを防ぐことができます。

以前のリリースでは、SequenceLength の倍数に最も近く、かつミニバッチ長以上の長さとなるように、シーケンスのミニバッチをパディングしてから、データが分割されていました。この動作を再現するには、カスタム学習ループを使用し、データのミニバッチを前処理するタイミングでこの動作を実装します。

R2018b: `ValidationPatience` 学習オプションの既定値は `Inf`

R2018b 以降では、ValidationPatience 学習オプションの既定値が Inf になっています。これは、検証による自動停止がオフであることを意味します。これにより、データから十分に学習する前に学習が停止するのを防ぎます。

以前のバージョンの既定値は 5 です。この動作を再現するには、ValidationPatience オプションを 5 に設定します。

R2018b: チェックポイントネットワークのファイル名が異なる

R2018b 以降では、チェックポイントネットワークを保存すると、net_checkpoint_ で始まるファイル名が割り当てられます。以前のバージョンでは、convnet_checkpoint_ で始まるファイル名が割り当てられます。

チェックポイントネットワークの保存と読み込みを行うコードがある場合、コードを更新して新しい名前でファイルを読み込みます。

参考

trainnet | dlnetwork | analyzeNetwork | ディープネットワークデザイナー

trainingOptions

構文

説明

例

学習オプションの指定

深層学習における学習の進行状況の監視

メトリクスを使用した学習の早期停止

入力引数

solverName — ニューラル ネットワークの学習用のソルバー "sgdm" | "rmsprop" | "adam" | "lbfgs" (R2023b 以降) | "lm" (R2024b 以降)

名前と値の引数

監視

Plots — ニューラル ネットワークの学習中に表示するプロット "none" (既定値) | "training-progress"

Metrics — 監視するメトリクス [] (既定値) | 文字ベクトル | string 配列 | 関数ハンドル | deep.DifferentiableFunction オブジェクト (R2024a 以降) | cell 配列 | メトリクス オブジェクト

ObjectiveMetricName — オブジェクティブ メトリクスの名前 "loss" (既定値) | string スカラー | 文字ベクトル

Verbose — 学習の進行状況の情報を表示するためのフラグ 1 (true) (既定値) | 0 (false)

VerboseFrequency — 詳細出力の頻度 50 (既定値) | 正の整数

OutputFcn — 出力関数 関数ハンドル | 関数ハンドルの cell 配列

データ レイアウト

CategoricalInputEncoding — categorical 入力の符号化 "integer" (既定値) | "one-hot"

CategoricalTargetEncoding — categorical ターゲットの符号化 "auto" (既定値) | "integer" | "one-hot"

InputDataFormats — 入力データの次元の説明 "auto" (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

TargetDataFormats — ターゲット データの次元の説明 "auto" (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

確率的ソルバーのオプション

MaxEpochs — エポックの最大回数 30 (既定値) | 正の整数

MiniBatchSize — ミニバッチのサイズ 128 (既定値) | 正の整数

Shuffle — データのシャッフルのオプション "once" (既定値) | "never" | "every-epoch"

InitialLearnRate — 初期学習率 正のスカラー

LearnRateSchedule — 学習率スケジュール "none" (既定値) | 文字ベクトル | string 配列 | 組み込みまたはカスタムの学習率スケジュール オブジェクト | 関数ハンドル | cell 配列

組み込みの学習率スケジュール名

組み込みの学習率スケジュール オブジェクト (R2024b 以降)

カスタム学習率スケジュール (R2024b 以降)

複数の学習率スケジュール (R2024b 以降)

Momentum — 前のステップの寄与 0.9 (既定値) | 0 から 1 までのスカラー

GradientDecayFactor — 勾配の移動平均の減衰率 0.9 (既定値) | 1 未満の非負のスカラー

SquaredGradientDecayFactor — 勾配の二乗の移動平均の減衰率 1 未満の非負のスカラー

Epsilon — 分母のオフセット 1e-8 (既定値) | 正のスカラー

LearnRateDropFactor — 学習率を下げる係数 0.1 (既定値) | 0 から 1 までのスカラー

LearnRateDropPeriod — 学習率を下げるまでのエポック数 10 (既定値) | 正の整数

バッチ ソルバーのオプション

MaxIterations — 最大反復回数 1000 (既定値) | 正の整数

GradientTolerance — 相対勾配の許容値 1e-5 (既定値) | 正のスカラー | 0 (R2025a 以降)

StepTolerance — ステップ サイズの許容値 1e-5 (既定値) | 正のスカラー | 0 (R2025a 以降)

LineSearchMethod — 適切な学習率を検出する方法 "weak-wolfe" (既定値) | "strong-wolfe" | "backtracking"

HistorySize — 保存する状態更新の数 10 (既定値) | 正の整数

InitialInverseHessianFactor — 逆ヘッセ行列の近似を特徴付ける初期値 1 (既定値) | 正のスカラー

MaxNumLineSearchIterations — 直線探索の反復の最大数 20 (既定値) | 正の整数

InitialStepSize — 最初の最適化ステップのおおよその最大絶対値 [] (既定値) | "auto" | 実数の有限スカラー

InitialDampingFactor — 初期減衰係数 0.001 (既定値) | 正のスカラー

MaxDampingFactor — 最大減衰係数 1e10 (既定値) | 正のスカラー

DampingIncreaseFactor — 減衰係数を増加させる係数 10 (既定値) | 1 より大きい正のスカラー

DampingDecreaseFactor — 減衰係数を減少させる係数 0.1 (既定値) | 1 未満の正のスカラー

検証

ValidationData — 学習中の検証に使用するデータ [] (既定値) | データストア | table | cell 配列 | minibatchqueue オブジェクト (R2024a 以降)

関数 trainnet

関数 trainBERTDocumentClassifier (Text Analytics Toolbox)

ValidationFrequency — ニューラル ネットワークの検証の頻度 50 (既定値) | 正の整数

ValidationPatience — 検証停止までの待機回数 Inf (既定値) | 正の整数

OutputNetwork — 学習完了時に返すニューラル ネットワーク "auto" (既定値) | "last-iteration" | "best-validation"

正則化と正規化

L2Regularization — L2 正則化の係数 0.0001 (既定値) | 非負のスカラー

ResetInputNormalization — 入力層の正規化をリセットするオプション 1 (true) (既定値) | 0 (false)

BatchNormalizationStatistics — バッチ正規化層の統計量を評価するモード "auto" (既定値) | "population" | "moving"

勾配クリップ

GradientThreshold — 勾配しきい値 Inf (既定値) | 正のスカラー

GradientThresholdMethod — 勾配しきい値法 "l2norm" (既定値) | "global-l2norm" | "absolute-value"

シーケンス

SequenceLength — シーケンスのパディングまたは切り捨てを行うオプション "longest" (既定値) | "shortest"

SequencePaddingDirection — パディングまたは切り捨ての方向 "right" (既定値) | "left"

SequencePaddingValue — 入力シーケンスをパディングする値 0 (既定値) | スカラー

ハードウェアと高速化

ExecutionEnvironment — ニューラル ネットワークの学習用のハードウェア リソース "auto" (既定値) | "cpu" | "gpu" | "multi-gpu" | "parallel-auto" | "parallel-cpu" | "parallel-gpu"

PreprocessingEnvironment — データの取得と前処理を行うための環境 "serial" (既定値) | "background" | "parallel"

Acceleration — パフォーマンスの最適化 "auto" (既定値) | "none"

チェックポイント

CheckpointPath — チェックポイント ニューラル ネットワークの保存用のパス "" (既定値) | string スカラー | 文字ベクトル

CheckpointFrequency — チェックポイント ニューラル ネットワークを保存する頻度 正の整数

CheckpointFrequencyUnit — チェックポイントの頻度の単位 "epoch" (既定値) | "iteration"

出力引数

options — 学習オプション TrainingOptionsSGDM | TrainingOptionsRMSProp | TrainingOptionsADAM | TrainingOptionsLBFGS | TrainingOptionsLM

ヒント

`solverName` — ニューラルネットワークの学習用のソルバー
`"sgdm"` | `"rmsprop"` | `"adam"` | `"lbfgs"` (R2023b 以降) | `"lm"` (R2024b 以降)

`Plots` — ニューラルネットワークの学習中に表示するプロット
`"none"` (既定値) | `"training-progress"`

`Metrics` — 監視するメトリクス
`[]` (既定値) | 文字ベクトル | string 配列 | 関数ハンドル | `deep.DifferentiableFunction` オブジェクト (R2024a 以降) | cell 配列 | メトリクスオブジェクト

`ObjectiveMetricName` — オブジェクティブメトリクスの名前
`"loss"` (既定値) | string スカラー | 文字ベクトル

`Verbose` — 学習の進行状況の情報を表示するためのフラグ
`1` (`true`) (既定値) | `0` (`false`)

`VerboseFrequency` — 詳細出力の頻度
`50` (既定値) | 正の整数

`OutputFcn` — 出力関数
関数ハンドル | 関数ハンドルの cell 配列

データレイアウト

`CategoricalInputEncoding` — categorical 入力の符号化
`"integer"` (既定値) | `"one-hot"`

`CategoricalTargetEncoding` — categorical ターゲットの符号化
`"auto"` (既定値) | `"integer"` | `"one-hot"`

`InputDataFormats` — 入力データの次元の説明
`"auto"` (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

`TargetDataFormats` — ターゲットデータの次元の説明
`"auto"` (既定値) | string 配列 | 文字ベクトルの cell 配列 | 文字ベクトル

`MaxEpochs` — エポックの最大回数
`30` (既定値) | 正の整数

`MiniBatchSize` — ミニバッチのサイズ
`128` (既定値) | 正の整数

`Shuffle` — データのシャッフルのオプション
`"once"` (既定値) | `"never"` | `"every-epoch"`

`InitialLearnRate` — 初期学習率
正のスカラー

`LearnRateSchedule` — 学習率スケジュール
`"none"` (既定値) | 文字ベクトル | string 配列 | 組み込みまたはカスタムの学習率スケジュールオブジェクト | 関数ハンドル | cell 配列

組み込みの学習率スケジュールオブジェクト (R2024b 以降)

`Momentum` — 前のステップの寄与
`0.9` (既定値) | `0` から `1` までのスカラー

`GradientDecayFactor` — 勾配の移動平均の減衰率
`0.9` (既定値) | `1` 未満の非負のスカラー

`SquaredGradientDecayFactor` — 勾配の二乗の移動平均の減衰率
`1` 未満の非負のスカラー

`Epsilon` — 分母のオフセット
`1e-8` (既定値) | 正のスカラー

`LearnRateDropFactor` — 学習率を下げる係数
`0.1` (既定値) | `0` から `1` までのスカラー

`LearnRateDropPeriod` — 学習率を下げるまでのエポック数
`10` (既定値) | 正の整数

バッチソルバーのオプション

`MaxIterations` — 最大反復回数
`1000` (既定値) | 正の整数

`GradientTolerance` — 相対勾配の許容値
`1e-5` (既定値) | 正のスカラー | `0` (R2025a 以降)

`StepTolerance` — ステップサイズの許容値
`1e-5` (既定値) | 正のスカラー | `0` (R2025a 以降)

`LineSearchMethod` — 適切な学習率を検出する方法
`"weak-wolfe"` (既定値) | `"strong-wolfe"` | `"backtracking"`

`HistorySize` — 保存する状態更新の数
10 (既定値) | 正の整数

`InitialInverseHessianFactor` — 逆ヘッセ行列の近似を特徴付ける初期値
`1` (既定値) | 正のスカラー

`MaxNumLineSearchIterations` — 直線探索の反復の最大数
`20` (既定値) | 正の整数

`InitialStepSize` — 最初の最適化ステップのおおよその最大絶対値
`[]` (既定値) | `"auto"` | 実数の有限スカラー

`InitialDampingFactor` — 初期減衰係数
`0.001` (既定値) | 正のスカラー

`MaxDampingFactor` — 最大減衰係数
`1e10` (既定値) | 正のスカラー

`DampingIncreaseFactor` — 減衰係数を増加させる係数
`10` (既定値) | 1 より大きい正のスカラー

`DampingDecreaseFactor` — 減衰係数を減少させる係数
`0.1` (既定値) | 1 未満の正のスカラー

`ValidationData` — 学習中の検証に使用するデータ
`[]` (既定値) | データストア | table | cell 配列 | `minibatchqueue` オブジェクト (R2024a 以降)

関数 `trainnet`

関数 `trainBERTDocumentClassifier` (Text Analytics Toolbox)

`ValidationFrequency` — ニューラルネットワークの検証の頻度
`50` (既定値) | 正の整数

`ValidationPatience` — 検証停止までの待機回数
`Inf` (既定値) | 正の整数

`OutputNetwork` — 学習完了時に返すニューラルネットワーク
`"auto"` (既定値) | `"last-iteration"` | `"best-validation"`

`L2Regularization` — L₂ 正則化の係数
`0.0001` (既定値) | 非負のスカラー

`ResetInputNormalization` — 入力層の正規化をリセットするオプション
`1` (`true`) (既定値) | `0` (`false`)

`BatchNormalizationStatistics` — バッチ正規化層の統計量を評価するモード
`"auto"` (既定値) | `"population"` | `"moving"`

`GradientThreshold` — 勾配しきい値
`Inf` (既定値) | 正のスカラー

`GradientThresholdMethod` — 勾配しきい値法
`"l2norm"` (既定値) | `"global-l2norm"` | `"absolute-value"`

`SequenceLength` — シーケンスのパディングまたは切り捨てを行うオプション
`"longest"` (既定値) | `"shortest"`

`SequencePaddingDirection` — パディングまたは切り捨ての方向
`"right"` (既定値) | `"left"`

`SequencePaddingValue` — 入力シーケンスをパディングする値
`0` (既定値) | スカラー

`ExecutionEnvironment` — ニューラルネットワークの学習用のハードウェアリソース
`"auto"` (既定値) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel-auto"` | `"parallel-cpu"` | `"parallel-gpu"`

`PreprocessingEnvironment` — データの取得と前処理を行うための環境
`"serial"` (既定値) | `"background"` | `"parallel"`

`Acceleration` — パフォーマンスの最適化
`"auto"` (既定値) | `"none"`

`CheckpointPath` — チェックポイントニューラルネットワークの保存用のパス
`""` (既定値) | string スカラー | 文字ベクトル

`CheckpointFrequency` — チェックポイントニューラルネットワークを保存する頻度
正の整数

`CheckpointFrequencyUnit` — チェックポイントの頻度の単位
`"epoch"` (既定値) | `"iteration"`

`options` — 学習オプション
`TrainingOptionsSGDM` | `TrainingOptionsRMSProp` | `TrainingOptionsADAM` | `TrainingOptionsLBFGS` | `TrainingOptionsLM`

L₂ 正則化

R2025a: メトリクス:R² メトリクスの監視およびプロット

R2024b: より多くの学習率スケジュールを使用したニューラルネットワークの学習

R2024b: レーベンバーグ・マルカートソルバーを使用した学習

R2024b: L-BFGS ソルバーの初期ステップサイズの指定

R2024a: `minibatchqueue` オブジェクトを使用した検証データの指定

R2024a: `deep.DifferentiableFunction` オブジェクトとしてのメトリクスの指定

R2024a: `SequenceLength` を整数に設定することは非推奨

R2024a: `DispatchInBackground` 学習オプションは非推奨

R2024a: `OutputNetwork` の既定は `"auto"`

R2024a: `OutputNetwork` の値 `"best-validation-loss"` は非推奨

R2024a: `ExecutionEnvironment` の値 `"parallel"` は非推奨

R2024a: `WorkerLoad` 学習オプションは非推奨

R2023b: L-BFGS ソルバーを使用したニューラルネットワークの学習

R2023b: CPU リソースのみまたは GPU リソースのみを使用したニューラルネットワークの並列学習

R2023b: `BatchNormalizationStatistics` の既定は `"auto"`

R2022b: `SequenceLength` 学習オプションを整数として指定した場合、`trainNetwork` は、分割を行う前に最も長いシーケンスに合わせてミニバッチをパディングする

R2018b: `ValidationPatience` 学習オプションの既定値は `Inf`

R2018b: チェックポイントネットワークのファイル名が異なる