sgdmupdate

モーメンタム項付き確率的勾配降下法 (SGDM) を使用してパラメーターを更新する

ページ内をすべて折りたたむ

構文

[netUpdated,vel] = sgdmupdate(net,grad,vel)

[params,vel] = sgdmupdate(params,grad,vel)

[___] = sgdmupdate(___learnRate,momentum)

説明

モーメンタム項付き確率的勾配降下法 (SGDM) アルゴリズムを使用して、カスタム学習ループでネットワークの学習可能なパラメーターを更新します。

メモ

この関数は、SGDM 最適化アルゴリズムを適用して、カスタム学習ループでネットワークのパラメーターを更新します。関数 trainnet を使用して SGDM ソルバーでニューラルネットワークに学習させるには、関数 trainingOptions を使用してソルバーを "sgdm" に設定します。

[netUpdated,vel] = sgdmupdate(net,grad,vel) は、SGDM アルゴリズムを使用して、ネットワーク net の学習可能なパラメーターを更新します。dlnetwork オブジェクトとして定義されたネットワークを反復的に更新するには、学習ループでこの構文を使用します。

例

[params,vel] = sgdmupdate(params,grad,vel) は、SGDM アルゴリズムを使用して、params に含まれる学習可能なパラメーターを更新します。関数を使用して定義されたネットワークの学習可能なパラメーターを反復的に更新するには、学習ループでこの構文を使用します。

例

[___] = sgdmupdate(___learnRate,momentum) は、前述の構文の入力引数に加え、グローバル学習率とモーメンタムに使用する値も指定します。

例

すべて折りたたむ

`sgdmupdate` を使用した学習可能なパラメーターの更新

グローバル学習率 0.05、およびモーメンタム 0.95 で、SGDM による更新を 1 ステップ実行します。

パラメーターとパラメーター勾配を数値配列として作成します。

params = rand(3,3,4);
grad = ones(3,3,4);

最初の反復のパラメーター速度を初期化します。

vel = [];

グローバル学習率とモーメンタムのカスタム値を指定します。

learnRate = 0.05;
momentum = 0.95;

sgdmupdate を使用して学習可能なパラメーターを更新します。

[params,vel] = sgdmupdate(params,grad,vel,learnRate,momentum);

`sgdmupdate` を使用したネットワークの学習

ライブスクリプトを開く

sgdmupdate を使用して、SGDM アルゴリズムによるネットワークの学習を行います。

学習データの読み込み

数字の学習データを読み込みます。

[XTrain,TTrain] = digitTrain4DArrayData;
classes = categories(TTrain);
numClasses = numel(classes);

ネットワークの定義

ネットワークアーキテクチャを定義し、イメージ入力層で Mean オプションを使用してイメージの平均値を指定します。

layers = [
    imageInputLayer([28 28 1],'Mean',mean(XTrain,4))
    convolution2dLayer(5,20)
    reluLayer
    convolution2dLayer(3,20,'Padding',1)
    reluLayer
    convolution2dLayer(3,20,'Padding',1)
    reluLayer
    fullyConnectedLayer(numClasses)
    softmaxLayer];

層配列から dlnetwork オブジェクトを作成します。

net = dlnetwork(layers);

モデル損失関数の定義

例の最後にリストされている補助関数 modelLoss を作成します。この関数は、dlnetwork オブジェクト、および入力データのミニバッチとそれに対応するラベルを受け取り、学習可能なパラメーターについての損失とその損失の勾配を返します。

学習オプションの指定

学習中に使用するオプションを指定します。

miniBatchSize = 128;
numEpochs = 20;
numObservations = numel(TTrain);
numIterationsPerEpoch = floor(numObservations./miniBatchSize);

ネットワークの学習

速度パラメーターを初期化します。

vel = [];

学習の進行状況モニター用に合計反復回数を計算します。

numIterations = numEpochs * numIterationsPerEpoch;

TrainingProgressMonitor オブジェクトを初期化します。監視オブジェクトを作成するとタイマーが開始されるため、学習ループに近いところでオブジェクトを作成するようにしてください。

monitor = trainingProgressMonitor(Metrics="Loss",Info="Epoch",XLabel="Iteration");

カスタム学習ループを使用してモデルに学習させます。各エポックについて、データをシャッフルしてデータのミニバッチをループで回します。関数 sgdmupdate を使用してネットワークパラメーターを更新します。反復が終了するたびに、学習の進行状況を表示します。

GPU が利用できる場合、GPU で学習を行います。GPU を使用するには、Parallel Computing Toolbox™ とサポートされている GPU デバイスが必要です。サポートされているデバイスの詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。

iteration = 0;
epoch = 0;

while epoch < numEpochs && ~monitor.Stop
    epoch = epoch + 1;

    % Shuffle data.
    idx = randperm(numel(TTrain));
    XTrain = XTrain(:,:,:,idx);
    TTrain = TTrain(idx);

    i = 0;
    while i < numIterationsPerEpoch && ~monitor.Stop
        i = i + 1;
        iteration = iteration + 1;

        % Read mini-batch of data and convert the labels to dummy
        % variables.
        idx = (i-1)*miniBatchSize+1:i*miniBatchSize;
        X = XTrain(:,:,:,idx);

        T = zeros(numClasses, miniBatchSize,"single");
        for c = 1:numClasses
            T(c,TTrain(idx)==classes(c)) = 1;
        end

        % Convert mini-batch of data to a dlarray.
        X = dlarray(single(X),"SSCB");

        % If training on a GPU, then convert data to a gpuArray.
        if canUseGPU
            X = gpuArray(X);
        end

        % Evaluate the model loss and gradients using dlfeval and the
        % modelLoss function.
        [loss,gradients] = dlfeval(@modelLoss,net,X,T);

        % Update the network parameters using the SGDM optimizer.
        [net,vel] = sgdmupdate(net,gradients,vel);

        % Update the training progress monitor.
        recordMetrics(monitor,iteration,Loss=loss);
        updateInfo(monitor,Epoch=epoch + " of " + numEpochs);
        monitor.Progress = 100 * iteration/numIterations;
    end
end

ネットワークのテスト

真のラベルをもつテストセットで予測を比較して、モデルの分類精度をテストします。

[XTest,TTest] = digitTest4DArrayData;

次元形式 "SSCB" (空間、空間、チャネル、バッチ) を使用して、データを dlarray に変換します。GPU で予測する場合、データを gpuArray にも変換します。

XTest = dlarray(XTest,"SSCB");
if canUseGPU
    XTest = gpuArray(XTest);
end

dlnetwork オブジェクトを使用してイメージを分類するには、関数 predict を使用してスコアが最も高いクラスを見つけます。

YTest = predict(net,XTest);
[~,idx] = max(extractdata(YTest),[],1);
YTest = classes(idx);

分類精度を評価します。

accuracy = mean(YTest==TTest)

accuracy = 0.9910

モデル損失関数

関数 modelLoss は、dlnetwork オブジェクト net、入力データ X のミニバッチとそれに対応するラベル T を受け取り、net 内の学習可能なパラメーターについての損失とその損失の勾配を返します。勾配を自動的に計算するには、関数 dlgradient を使用します。

function [loss,gradients] = modelLoss(net,X,T)

Y = forward(net,X);

loss = crossentropy(Y,T);

gradients = dlgradient(loss,net.Learnables);

end

入力引数

すべて折りたたむ

`net` — ネットワーク
`dlnetwork` オブジェクト

ネットワーク。dlnetwork オブジェクトとして指定します。

この関数は、dlnetwork オブジェクトの Learnables プロパティを更新します。net.Learnables は、3 つの変数をもつ table です。

Layer — 層の名前。string スカラーとして指定します。
Parameter — パラメーター名。string スカラーとして指定します。
Value — パラメーターの値。dlarray を含む cell 配列として指定します。

入力引数 grad は、net.Learnables と同じ形式の table でなければなりません。

`params` — ネットワークの学習可能パラメーター
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

ネットワークの学習可能なパラメーター。dlarray、数値配列、cell 配列、構造体、または table として指定します。

params を table として指定する場合、次の 3 つの変数を table に含めなければなりません。

Layer — 層の名前。string スカラーとして指定します。
Parameter — パラメーター名。string スカラーとして指定します。
Value — パラメーターの値。dlarray を含む cell 配列として指定します。

cell 配列、構造体、table、入れ子になった cell 配列、または入れ子になった構造体を使用し、ネットワークの学習可能なパラメーターのコンテナーとして params を指定できます。cell 配列、構造体、または table に含まれる学習可能なパラメーターは、データ型が double または single である dlarray または数値でなければなりません。

入力引数 grad のデータ型、順序、およびフィールド (構造体の場合) または変数 (table の場合) は、params とまったく同じでなければなりません。

学習可能なパラメーターに複素数値を使用できます。 (R2024a 以降)該当する演算が複素数値の学習可能なパラメーターをサポートしていることを確認してください。

R2024a より前: 学習可能なパラメーターに複素数値を使用してはなりません。モデルに複素数の学習可能なパラメーターが含まれている場合、学習可能なパラメーターを実数値に変換してから勾配を計算してください。

データ型: single | double | struct | table | cell

`grad` — 損失の勾配
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

損失の勾配。dlarray、数値配列、cell 配列、構造体、または table として指定します。

grad の厳密な形式は、入力ネットワークまたは学習可能なパラメーターによって異なります。sgdmupdate に与えることができる入力について、grad で要求される形式を次の表に示します。

入力	学習可能なパラメーター	勾配
`net`	変数 `Layer`、`Parameter`、および `Value` を含む table `net.Learnables`。変数 `Value` は、各学習可能なパラメーターが `dlarray` として格納された cell 配列から成ります。	データ型、変数、および順序が `net.Learnables` と同じである table。`grad` は、各学習可能なパラメーターの勾配が格納された cell 配列から成る変数 `Value` で構成されていなければなりません。
`params`	`dlarray`	データ型と順序が `params` と同じである `dlarray`
	数値配列	データ型と順序が `params` と同じである数値配列
	cell 配列	データ型、構造体、および順序が `params` と同じである cell 配列
	構造体	データ型、フィールド、および順序が `params` と同じである構造体
	変数 `Layer`、`Parameter`、および `Value` をもつ table。変数 `Value` は、各学習可能なパラメーターが `dlarray` として格納された cell 配列で構成されていなければなりません。	データ型、変数、および順序が `params` と同じである table。`grad` は、各学習可能なパラメーターの勾配が格納された cell 配列から成る変数 `Value` で構成されていなければなりません。

dlgradient への呼び出しが含まれる関数を評価する dlfeval を呼び出すことで、grad を取得できます。詳細については、Deep Learning Toolbox での自動微分の使用を参照してください。

勾配に複素数値を使用できます。 (R2024a 以降)複素数値の勾配を使用すると、学習可能なパラメーターが複素数値になる場合があります。該当する演算が複素数値の学習可能なパラメーターをサポートしていることを確認してください。

R2024a より前: 勾配に複素数値を使用してはなりません。モデルに複素数が含まれている場合、すべての出力を実数値に変換してから勾配を計算してください。

`vel` — パラメーターの速度
`[]` | `dlarray` | 数値配列 | cell 配列 | 構造体 | table

パラメーターの速度。空の配列、dlarray、数値配列、cell 配列、構造体、または table として指定します。

vel の厳密な形式は、入力ネットワークまたは学習可能なパラメーターによって異なります。sgdmpdate に与えることができる入力について、vel で要求される形式を次の表に示します。

入力	学習可能なパラメーター	速度
`net`	変数 `Layer`、`Parameter`、および `Value` を含む table `net.Learnables`。変数 `Value` は、各学習可能なパラメーターが `dlarray` として格納された cell 配列から成ります。	データ型、変数、および順序が `net.Learnables` と同じである table。`vel` は、各学習可能なパラメーターの速度が格納された cell 配列から成る変数 `Value` で構成されていなければなりません。
`params`	`dlarray`	データ型と順序が `params` と同じである `dlarray`
	数値配列	データ型と順序が `params` と同じである数値配列
	cell 配列	データ型、構造体、および順序が `params` と同じである cell 配列
	構造体	データ型、フィールド、および順序が `params` と同じである構造体
	変数 `Layer`、`Parameter`、および `Value` をもつ table。変数 `Value` は、各学習可能なパラメーターが `dlarray` として格納された cell 配列で構成されていなければなりません。	データ型、変数、および順序が `params` と同じである table。`vel` は、各学習可能なパラメーターの速度が格納された cell 配列から成る変数 `Value` で構成されていなければなりません。

vel を空の配列として指定した場合、この関数は、過去の速度が存在しないと仮定し、一連の反復における最初の更新時と同じ処理を実行します。学習可能なパラメーターを反復的に更新するには、前回の sgdmupdate の呼び出しで得られた出力 vel を入力 vel として使用します。

速度に複素数値を使用できます。 (R2024a 以降)複素数値の勾配と速度を使用すると、学習可能なパラメーターが複素数値になる場合があります。該当する演算が複素数値の学習可能なパラメーターをサポートしていることを確認してください。

`learnRate` — グローバル学習率
`0.01` (既定値) | 正のスカラー

学習率。正のスカラーとして指定します。learnRate の既定値は 0.01 です。

ネットワークパラメーターを dlnetwork オブジェクトとして指定した場合、各パラメーターの学習率は、グローバル学習率に、ネットワーク層で定義された対応する学習率係数プロパティを乗算した値になります。

`momentum` — モーメンタム
`0.9` (既定値) | `0` ～ `1` の正のスカラー

モーメンタム。0 ～ 1 の正のスカラーとして指定します。momentum の既定値は 0.9 です。

出力引数

すべて折りたたむ

`netUpdated` — 更新されたネットワーク
`dlnetwork` オブジェクト

更新されたネットワーク。dlnetwork オブジェクトとして返されます。

この関数は、dlnetwork オブジェクトの Learnables プロパティを更新します。

`params` — 更新されたネットワークの学習可能なパラメーター
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

更新されたネットワークの学習可能なパラメーター。dlarray、数値配列、cell 配列、構造体、またはネットワークの更新された学習可能なパラメーターが格納された変数 Value をもつ table として返されます。

`vel` — 更新されたパラメーターの速度
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

更新されたパラメーターの速度。dlarray、数値配列、cell 配列、構造体、または table として返されます。

アルゴリズム

すべて折りたたむ

確率的勾配降下法

標準の勾配降下法アルゴリズムは、各反復で損失の負の勾配の方向に小さいステップで進むことによって損失関数を最小化するように、ネットワークパラメーター (重みとバイアス) を更新します。

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}),$

ここで、 $ℓ$ は反復回数、 $α > 0$ は学習率、 $θ$ はパラメーターベクトル、 $E (θ)$ は損失関数を意味します。標準の勾配降下法アルゴリズムでは、損失関数の勾配 $\nabla E (θ)$ は、学習セット全体を使用して評価されます。標準の勾配降下法アルゴリズムでは、データセット全体を一度に使用します。

一方、"確率的" 勾配降下法アルゴリズムは、各反復で学習データのサブセットを使用して勾配を評価し、パラメーターを更新します。各反復ではミニバッチと呼ばれる別のサブセットが使用されます。ミニバッチを使用して、学習セット全体に対する学習アルゴリズムを一巡することを、1 "エポック" と言います。確率的勾配降下が確率的と言われるのは、ミニバッチを使用して計算されたパラメーター更新が、データセット全体を使用して得られるパラメーター更新のノイズを含む推定であるためです。

モーメンタム項付き確率的勾配降下法

確率的勾配降下法アルゴリズムは、最適値への最急降下経路に沿って振動することがあります。パラメーター更新へのモーメンタム項の追加は、この振動を減らす方法の 1 つです[1]。モーメンタム項付き確率的勾配降下法 (SGDM) の更新は、以下のとおりです。

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}) + γ (θ_{ℓ} - θ_{ℓ - 1}),$

ここで、学習率 α とモーメンタム項の値 $γ$ は、前の勾配ステップから現在の反復への寄与を決定します。

参照

[1] Murphy, K. P. Machine Learning: A Probabilistic Perspective. The MIT Press, Cambridge, Massachusetts, 2012.

拡張機能

すべて展開する

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

sgdmupdate 関数は GPU 配列入力をサポートしますが、次の使用上の注意および制限があります。

以下の入力引数の少なくとも 1 つが、gpuArray または基となるデータが gpuArray 型である dlarray の場合、この関数は GPU で実行されます。
- grad
- params

詳細については、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2019b で導入

すべて展開する

R2024a: 複素数値の学習可能なパラメーターと勾配

学習可能なパラメーター、勾配、および速度に、複素数値を使用できます。更新された学習可能なパラメーターが複素数値である場合、該当する演算が複素数値のパラメーターをサポートしていることを確認してください。

参考

sgdmupdate

構文

説明

例

sgdmupdate を使用した学習可能なパラメーターの更新

sgdmupdate を使用したネットワークの学習

入力引数

net — ネットワーク dlnetwork オブジェクト

params — ネットワークの学習可能パラメーター dlarray | 数値配列 | cell 配列 | 構造体 | table

grad — 損失の勾配 dlarray | 数値配列 | cell 配列 | 構造体 | table

vel — パラメーターの速度 [] | dlarray | 数値配列 | cell 配列 | 構造体 | table

learnRate — グローバル学習率 0.01 (既定値) | 正のスカラー

momentum — モーメンタム 0.9 (既定値) | 0 ～ 1 の正のスカラー

出力引数

netUpdated — 更新されたネットワーク dlnetwork オブジェクト

params — 更新されたネットワークの学習可能なパラメーター dlarray | 数値配列 | cell 配列 | 構造体 | table

vel — 更新されたパラメーターの速度 dlarray | 数値配列 | cell 配列 | 構造体 | table

アルゴリズム

確率的勾配降下法

モーメンタム項付き確率的勾配降下法

参照

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2024a: 複素数値の学習可能なパラメーターと勾配

参考

トピック

`sgdmupdate` を使用した学習可能なパラメーターの更新

`sgdmupdate` を使用したネットワークの学習

`net` — ネットワーク
`dlnetwork` オブジェクト

`params` — ネットワークの学習可能パラメーター
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

`grad` — 損失の勾配
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

`vel` — パラメーターの速度
`[]` | `dlarray` | 数値配列 | cell 配列 | 構造体 | table

`learnRate` — グローバル学習率
`0.01` (既定値) | 正のスカラー

`momentum` — モーメンタム
`0.9` (既定値) | `0` ～ `1` の正のスカラー

`netUpdated` — 更新されたネットワーク
`dlnetwork` オブジェクト

`params` — 更新されたネットワークの学習可能なパラメーター
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

`vel` — 更新されたパラメーターの速度
`dlarray` | 数値配列 | cell 配列 | 構造体 | table

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。