Main Content

updateMetrics

カーネル インクリメンタル学習モデルの新しいデータに基づくパフォーマンス メトリクスの更新

R2022a 以降

    説明

    ストリーミング データが与えられると、updateMetrics は、カーネル回帰用 (incrementalRegressionKernel オブジェクト) またはバイナリ カーネル分類用 (incrementalClassificationKernel オブジェクト) に構成されたインクリメンタル学習モデルのパフォーマンスを測定します。updateMetrics はパフォーマンス メトリクスを出力モデルに格納します。

    updateMetrics では柔軟なインクリメンタル学習が可能です。この関数を呼び出してデータの入力チャンクでモデルのパフォーマンス メトリクスを更新した後、モデルにデータを学習させる前に他のアクションを実行できます。たとえば、データのチャンクでのパフォーマンスに基づいて、モデルに学習させる必要があるかどうかを決定できます。また、関数 updateMetricsAndFit を使用すると、データが到達したときにモデルのパフォーマンス メトリクスの更新とモデルの学習の両方を 1 回の呼び出しで実行できます。

    指定したデータのバッチにおけるモデルのパフォーマンスを測定するには、代わりに loss を呼び出します。

    Mdl = updateMetrics(Mdl,X,Y) は、インクリメンタル学習モデル Mdl を返します。これは、入力予測子と応答データ (それぞれ XY) のモデル パフォーマンス メトリクスを含むように変更された入力インクリメンタル学習モデル Mdl です。

    入力モデルが "ウォーム" (Mdl.IsWarmtrue) の場合、updateMetrics は以前に計算されたメトリクスを上書きし、Metrics プロパティに新しい値を保存します。それ以外の場合、updateMetrics は代わりに MetricsNaN 値を保存します。

    入力モデルと出力モデルのデータ型は同じです。

    Mdl = updateMetrics(Mdl,X,Y,Weights=weights) は、観測値の重みも設定します。

    すべて折りたたむ

    fitckernel を使用してバイナリ分類用のカーネル モデルに学習させ、それをインクリメンタル学習器に変換し、その性能をストリーミング データまで追跡します。

    データの読み込みと前処理

    人の行動のデータ セットを読み込みます。データをランダムにシャッフルします。

    load humanactivity
    rng(1) % For reproducibility
    n = numel(actid);
    idx = randsample(n,n);
    X = feat(idx,:);
    Y = actid(idx);

    データ セットの詳細については、コマンド ラインで Description を入力してください。

    応答は、次の 5 つのクラスのいずれかになります。座る、立つ、歩く、走る、または踊る。被験者が移動しているかどうか (actid > 2) を基準に、応答を二分します。

    Y = Y > 2;

    バイナリ分類用のカーネル モデルの学習

    バイナリ分類用のカーネル モデルを、データの半分から取った無作為標本に当てはめます。

    idxtt = randsample([true false],n,true);
    TTMdl = fitckernel(X(idxtt,:),Y(idxtt))
    TTMdl = 
      ClassificationKernel
                  ResponseName: 'Y'
                    ClassNames: [0 1]
                       Learner: 'svm'
        NumExpansionDimensions: 2048
                   KernelScale: 1
                        Lambda: 8.2967e-05
                 BoxConstraint: 1
    
    
    

    TTMdl は、バイナリ分類用の従来式の学習済みカーネル モデルを表す ClassificationKernel モデル オブジェクトです。

    学習済みモデルの変換

    従来式の学習済み分類モデルをインクリメンタル学習用のモデルに変換します。

    IncrementalMdl = incrementalLearner(TTMdl)
    IncrementalMdl = 
      incrementalClassificationKernel
    
                        IsWarm: 1
                       Metrics: [1x2 table]
                    ClassNames: [0 1]
                ScoreTransform: 'none'
        NumExpansionDimensions: 2048
                   KernelScale: 1
    
    
    

    IncrementalMdlincrementalClassificationKernel モデルです。モデルの表示で、モデルがウォームである (IsWarm1) ことが示されています。そのため、updateMetrics は、与えられたデータでのモデルのパフォーマンス メトリクスを追跡できます。

    パフォーマンス メトリクスの追跡

    関数 updateMetrics を使用して、残りのデータでのモデル パフォーマンスを追跡します。50 個の観測値を一度に処理して、データ ストリームをシミュレートします。各反復で次を行います。

    1. updateMetrics を呼び出し、観測値の入力チャンクを所与として、モデルの分類誤差の累積とウィンドウを更新します。前のインクリメンタル モデルを上書きして、Metrics プロパティ内の損失を更新します。関数がモデルをデータ チャンクに当てはめないことに注意してください。チャンクはモデルに対して "新しい" データです。

    2. 分類誤差と学習観測値の数を保存します。

    % Preallocation
    idxil = ~idxtt;
    nil = sum(idxil);
    numObsPerChunk = 50;
    nchunk = floor(nil/numObsPerChunk);
    ce = array2table(zeros(nchunk,2),VariableNames=["Cumulative","Window"]);
    numtrainobs = [zeros(nchunk,1)];
    Xil = X(idxil,:);
    Yil = Y(idxil);
    
    % Incremental fitting
    for j = 1:nchunk
        ibegin = min(nil,numObsPerChunk*(j-1) + 1);
        iend   = min(nil,numObsPerChunk*j);
        idx = ibegin:iend;
        IncrementalMdl = updateMetrics(IncrementalMdl,Xil(idx,:),Yil(idx));
        ce{j,:} = IncrementalMdl.Metrics{"ClassificationError",:};
        numtrainobs(j) = IncrementalMdl.NumTrainingObservations; 
    end

    IncrementalMdl は、モデル パフォーマンスをデータ ストリーム内の観測値まで追跡した incrementalClassificationKernel モデル オブジェクトです。

    学習観測値の数とパフォーマンス メトリクスのトレース プロットを別々のタイルにプロットします。

    t = tiledlayout(2,1);
    nexttile
    plot(numtrainobs)
    ylabel("Number of Training Observations")
    xlim([0 nchunk])
    nexttile
    plot(ce.Variables)
    xlim([0 nchunk])
    ylabel("Classification Error")
    legend(ce.Properties.VariableNames,Location="best")
    xlabel(t,"Iteration")

    Figure contains 2 axes objects. Axes object 1 with ylabel Number of Training Observations contains an object of type line. Axes object 2 with ylabel Classification Error contains 2 objects of type line. These objects represent Cumulative, Window.

    累積の損失は安定していますが、ウィンドウの損失には急な変動があります。updateMetrics はモデルをデータに当てはめないため、学習観測値の数は変わりません。

    関数 incrementalClassificationKernel を呼び出すときに incrementalClassificationKernel モデル オブジェクトのインクリメンタル学習オプションを構成します。モデルの性能をストリーミング データで追跡し、モデルをデータに当てはめます。インクリメンタル学習関数を呼び出すときに観測値の重みを指定します。

    バイナリ分類用のインクリメンタル カーネル モデルを作成します。推定期間を 5000 個の観測値に指定し、確率的勾配降下 (SGD) ソルバーを指定します。

    Mdl = incrementalClassificationKernel(EstimationPeriod=5000,Solver="sgd")
    Mdl = 
      incrementalClassificationKernel
    
                        IsWarm: 0
                       Metrics: [1x2 table]
                    ClassNames: [1x0 double]
                ScoreTransform: 'none'
        NumExpansionDimensions: 0
                   KernelScale: 1
    
    
    

    MdlincrementalClassificationKernel モデルです。そのプロパティはすべて読み取り専用です。

    モデルの表示で、モデルがウォームでない (IsWarm0) ことが示されています。モデルのプロパティを表示して、メトリクスのウォームアップ期間のサイズを調べます。

    mwp = Mdl.MetricsWarmupPeriod
    mwp = 1000
    

    モデルのパフォーマンスを測定する前にインクリメンタル近似関数 (fit など) で処理しなければならない観測値の数を調べます。

    numObsBeforeMetrics = Mdl.MetricsWarmupPeriod + Mdl.EstimationPeriod
    numObsBeforeMetrics = 6000
    

    人の行動のデータ セットを読み込みます。データをランダムにシャッフルします。

    load humanactivity
    n = numel(actid);
    rng(1) % For reproducibility
    idx = randsample(n,n);
    X = feat(idx,:);
    Y = actid(idx);

    データ セットの詳細については、コマンド ラインで Description を入力してください。

    応答は、次の 5 つのクラスのいずれかになります。座る、立つ、歩く、走る、または踊る。被験者が移動しているかどうか (actid > 2) を基準に、応答を二分します。

    Y = Y > 2;

    被験者が移動していない (Y = false) ときの収集データが、被験者が移動していたときのデータの倍の品質であると仮定します。静止している被験者から収集した観測値に 2 を割り当て、移動している被験者から収集した観測値に 1 を割り当てる重み変数を作成します。

    W = ones(n,1) + ~Y;

    インクリメンタル学習を実行します。各反復で次を行います。

    • 50 個の観測値のチャンクを処理して、データ ストリームをシミュレート。

    • updateMetrics を使用して、入力チャンクのモデルのパフォーマンス メトリクスを測定します。対応する観測値の重みを指定し、入力モデルを上書きします。

    • 関数 fit を使用して、モデルを入力チャンクに当てはめます。対応する観測値の重みを指定し、入力モデルを上書きします。

    • 誤分類誤差率と学習観測値の数を保存し、インクリメンタル学習中にそれらがどのように進化するかを確認します。

    % Preallocation
    numObsPerChunk = 50;
    nchunk = floor(n/numObsPerChunk);
    ce = array2table(zeros(nchunk,2),VariableNames=["Cumulative","Window"]);
    numtrainobs = [zeros(nchunk,1)];
    
    % Incremental fitting
    for j = 1:nchunk
        ibegin = min(n,numObsPerChunk*(j-1) + 1);
        iend   = min(n,numObsPerChunk*j);
        idx = ibegin:iend;
        Mdl = updateMetrics(Mdl,X(idx,:),Y(idx),Weights=W(idx));
        ce{j,:} = Mdl.Metrics{"ClassificationError",:};
        Mdl = fit(Mdl,X(idx,:),Y(idx),Weights=W(idx));
        numtrainobs(j) = Mdl.NumTrainingObservations; 
    end

    Mdl は、ストリーム内のすべてのデータで学習させた incrementalClassificationKernel モデル オブジェクトです。

    学習観測値の数とパフォーマンス メトリクスのトレース プロットを別々のタイルにプロットします。

    t = tiledlayout(2,1);
    nexttile
    plot(numtrainobs)
    ylabel("Number of Training Observations")
    xline(Mdl.EstimationPeriod/numObsPerChunk,'-.')
    xlim([0 nchunk])
    nexttile
    plot(ce.Variables)
    ylabel('ClassificationError')
    xline(Mdl.EstimationPeriod/numObsPerChunk,'-.')
    xline(numObsBeforeMetrics/numObsPerChunk,'--')
    xlim([0 nchunk]);
    legend(ce.Properties.VariableNames,Location="best")
    xlabel(t,'Iteration')

    Figure contains 2 axes objects. Axes object 1 with ylabel Number of Training Observations contains 2 objects of type line, constantline. Axes object 2 with ylabel ClassificationError contains 4 objects of type line, constantline. These objects represent Cumulative, Window.

    mdlIsWarm = numObsBeforeMetrics/numObsPerChunk
    mdlIsWarm = 120
    

    プロットは、推定期間が経過するまでは、fit がモデルをデータに当てはめることも、パラメーターを更新することもないということを示します。また、updateMetrics は、推定期間およびメトリクスのウォームアップ期間 (120 チャンク) が経過するまでは分類誤差を追跡しません。

    カーネル回帰モデルのパフォーマンスが低下した場合にのみ、そのモデルに対してインクリメンタル学習を行います。

    2015 年のニューヨーク市住宅データ セットを読み込み、シャッフルします。このデータの詳細については、NYC Open Data を参照してください。

    load NYCHousing2015
    
    rng(1) % For reproducibility
    n = size(NYCHousing2015,1);
    shuffidx = randsample(n,n);
    NYCHousing2015 = NYCHousing2015(shuffidx,:);

    テーブルから応答変数 SALEPRICE を抽出します。数値安定性を得るために、SALEPRICE1e6 の尺度でスケールします。

    Y = NYCHousing2015.SALEPRICE/1e6;
    NYCHousing2015.SALEPRICE = [];

    この例の計算コストを削減するために、254 個のカテゴリをもつカテゴリカル変数が含まれている NEIGHBORHOOD 列を削除します。

    NYCHousing2015.NEIGHBORHOOD = [];

    他のカテゴリカル予測子からダミー変数メトリクスを作成します。

    catvars = ["BOROUGH","BUILDINGCLASSCATEGORY"];
    dumvarstbl = varfun(@(x)dummyvar(categorical(x)),NYCHousing2015, ...
        InputVariables=catvars);
    dumvarmat = table2array(dumvarstbl);
    NYCHousing2015(:,catvars) = [];

    テーブル内の他のすべての数値変数を売価の予測子として扱います。ダミー変数の行列を予測子データの残りに連結します。

    idxnum = varfun(@isnumeric,NYCHousing2015,OutputFormat="uniform");
    X = [dumvarmat NYCHousing2015{:,idxnum}];

    推定期間またはメトリクスのウォームアップ期間がないように、インクリメンタル学習用のカーネル回帰モデルを構成します。メトリクス ウィンドウ サイズを 1000 に指定します。モデルを最初の 100 個の観測値に当てはめて updateMetrics 用に準備します。

    Mdl = incrementalRegressionKernel(EstimationPeriod=0, ...
        MetricsWarmupPeriod=0,MetricsWindowSize=1000);
    initobs = 100;
    Mdl = fit(Mdl,X(1:initobs,:),Y(1:initobs));

    MdlincrementalRegressionKernel モデル オブジェクトです。

    条件付きの当てはめを行い、インクリメンタル学習を実行します。各反復でこの手順に従います。

    • 100 個の観測値のチャンクを一度に処理することで、データ ストリームをシミュレートします。

    • サイズが 200 の観測ウィンドウ内で、イプシロン不感応損失を計算することにより、モデル パフォーマンスを更新します。

    • それまでの最小損失の倍を超える損失が発生した場合にのみ、モデルをデータ チャンクに当てはめます。

    • パフォーマンスと当てはめを追跡するときは、前のインクリメンタル モデルを上書きします。

    • イプシロン不感応損失と学習観測値の数を保存して、それらが学習中にどのように進化するかを確認します。

    • fit がモデルに学習させるタイミングを追跡します。

    % Preallocation
    numObsPerChunk = 100;
    nchunk = floor((n - initobs)/numObsPerChunk);
    ei = array2table(nan(nchunk,2),VariableNames=["Cumulative","Window"]);
    numtrainobs = zeros(nchunk,1);
    trained = false(nchunk,1);
    
    % Incremental fitting
    for j = 1:nchunk
        ibegin = min(n,numObsPerChunk*(j-1) + 1 + initobs);
        iend   = min(n,numObsPerChunk*j + initobs);
        idx = ibegin:iend;
        Mdl = updateMetrics(Mdl,X(idx,:),Y(idx));
        ei{j,:} = Mdl.Metrics{"EpsilonInsensitiveLoss",:};
        minei = min(ei{:,2});
        pdiffloss = (ei{j,2} - minei)/minei*100;
        if pdiffloss > 100
            Mdl = fit(Mdl,X(idx,:),Y(idx));
            trained(j) = true;
        end    
        numtrainobs(j) = Mdl.NumTrainingObservations;
    end

    Mdl は、ストリーム内のすべてのデータで学習させた incrementalRegressionKernel モデル オブジェクトです。

    学習観測値の数とモデルのパフォーマンスが学習中にどのように進化するかを確認するには、それらを別々のタイルにプロットします。

    t = tiledlayout(2,1);
    nexttile
    plot(numtrainobs)
    hold on
    plot(find(trained),numtrainobs(trained),"r.")
    xlim([0 nchunk])
    ylabel("Number of Training Observations")
    legend("Number of Training Observations","Training occurs",Location="best")
    hold off
    nexttile
    plot(ei.Variables)
    xlim([0 nchunk])
    ylabel("Epsilon Insensitive Loss")
    legend(ei.Properties.VariableNames)
    xlabel(t,"Iteration")

    Figure contains 2 axes objects. Axes object 1 with ylabel Number of Training Observations contains 2 objects of type line. One or more of the lines displays its values using only markers These objects represent Number of Training Observations, Training occurs. Axes object 2 with ylabel Epsilon Insensitive Loss contains 2 objects of type line. These objects represent Cumulative, Window.

    学習観測値の数のトレース プロットは、損失がそれまでの最小損失の倍とならない定数値の期間を示します。

    入力引数

    すべて折りたたむ

    パフォーマンスを測定するインクリメンタル学習モデル。incrementalClassificationKernel または incrementalRegressionKernel というモデル オブジェクトとして指定します。Mdl は、直接作成することも、サポートされている従来式の学習済み機械学習モデルを関数 incrementalLearner によって変換して作成することもできます。詳細については、対応するリファレンス ページを参照してください。

    Mdl.IsWarmfalse の場合、updateMetrics はモデルのパフォーマンスを追跡しません。updateMetrics がパフォーマンス メトリクスを追跡する前に、Mdl とデータを fit に渡して、MdlMdl.EstimationPeriod + Mdl.MetricsWarmupPeriod 観測値に当てはめなければなりません。詳細については、パフォーマンス メトリクスを参照してください。

    予測子データのチャンク。n 個の観測値と Mdl.NumPredictors 個の予測子変数で構成される浮動小数点行列として指定します。

    観測値のラベル Y の長さと X の観測値の数は同じでなければなりません。Y(j)X 内の観測値 j (行) のラベルです。

    メモ

    • Mdl.NumPredictors = 0 の場合、updateMetricsX から予測子の数を推測し、出力モデルの対応するプロパティを設定します。それ以外の場合、ストリーミング データ内の予測子変数の数が Mdl.NumPredictors から変化すると、updateMetrics がエラーを生成します。

    • updateMetrics は、浮動小数点の入力予測子データのみをサポートしています。入力データに categorical データが含まれている場合は、エンコード バージョンの categorical データを準備する必要があります。dummyvar を使用して、各カテゴリカル変数をダミー変数で構成される数値行列に変換します。その後、すべてのダミー変数行列とその他の数値予測子を連結します。詳細については、ダミー変数を参照してください。

    データ型: single | double

    応答 (ラベル) のチャンク。分類問題については、categorical 配列、文字配列、string 配列、logical ベクトル、浮動小数点ベクトルのいずれか、あるいは文字ベクトルの cell 配列として指定します。回帰問題については、浮動小数点ベクトルとして指定します。

    観測値のラベル Y の長さと X の観測値の数は同じでなければなりません。Y(j)X 内の観測値 j (行) のラベルです。

    分類問題では次のようになります。

    • updateMetrics はバイナリ分類のみをサポートします。

    • 入力モデル MdlClassNames プロパティが空以外の場合は、次の条件が適用されます。

      • YMdl.ClassNames のメンバーではないラベルを含む場合、updateMetrics はエラーを生成します。

      • YMdl.ClassNames のデータ型は同じでなければなりません。

    データ型: char | string | cell | categorical | logical | single | double

    観測値の重みのチャンク。正の値の浮動小数点ベクトルとして指定します。updateMetrics は、weights 内の対応する値を使用して X 内の観測値に重みを付けます。weights のサイズは X 内の観測値の数 n と同じでなければなりません。

    既定では weightsones(n,1) です。

    正規化方式を含む詳細については、観測値の重みを参照してください。

    データ型: double | single

    メモ

    観測値 (予測子またはラベル) または重みが少なくとも 1 つの欠損 (NaN) 値を含む場合、updateMetrics はその観測値を無視します。したがって、updateMetrics は n 個よりも少ない観測値を使用してモデル パフォーマンスを計算します。ここで n は X 内の観測値数です。

    出力引数

    すべて折りたたむ

    更新されたインクリメンタル学習モデル。入力モデル Mdl と同じデータ型のインクリメンタル学習モデル オブジェクト incrementalClassificationKernel または incrementalRegressionKernel として返されます。

    モデルがウォームでない場合、updateMetrics はパフォーマンス メトリクスを計算しません。その結果、MdlMetrics プロパティは、NaN 値で構成された状態を完全に維持します。モデルがウォームの場合、updateMetrics は、新しいデータ XY における累積およびウィンドウのパフォーマンス メトリクスを計算し、Mdl.Metrics の対応する要素を上書きします。入力モデル Mdl の他のプロパティは、すべて出力モデル Mdl に引き継がれます。詳細については、パフォーマンス メトリクスを参照してください。

    ヒント

    • 従来式の学習とは異なり、インクリメンタル学習には個別のテスト (ホールドアウト) セットが存在しない場合もあります。そのため、データの各入力チャンクをテスト セットとして扱うには、インクリメンタル モデルと各入力チャンクを、fit を使用して同じデータでモデルに学習させる前に updateMetrics に渡します。

    アルゴリズム

    すべて折りたたむ

    パフォーマンス メトリクス

    • updateMetrics および updateMetricsAndFit は、インクリメンタル モデルが "ウォーム" (IsWarm プロパティが true) のときにのみ、新しいデータから Mdl.Metrics の table の行ラベルで指定されたモデルのパフォーマンス メトリクスを追跡します。インクリメンタル モデルは、fit または updateMetricsAndFit がインクリメンタル モデルを Mdl.MetricsWarmupPeriod 個の観測値 ("メトリクスのウォームアップ期間") に当てはめた後にウォームになります。

      Mdl.EstimationPeriod > 0 の場合、関数 fit および updateMetricsAndFit はモデルをデータに当てはめる前にハイパーパラメーターを推定します。そのため、関数は、モデルがメトリクスのウォームアップ期間を開始する前に EstimationPeriod 個の観測値を追加で処理しなければなりません。

    • Mdl.Metrics プロパティは、各パフォーマンス メトリクスの 2 つの形式を table の変数 (列) Cumulative および Window とし、個々のメトリクスを行に格納します。インクリメンタル モデルがウォームになると、updateMetrics および updateMetricsAndFit は次の頻度でメトリクスを更新します。

      • Cumulative — 関数は、モデルの性能追跡の開始以降の累積メトリクスを計算します。関数は、関数が呼び出されるたびにメトリクスを更新し、提供されたデータ セット全体に基づいて計算を行います。

      • Window — 関数は、Mdl.MetricsWindowSize プロパティによって決定されたウィンドウ内のすべての観測値に基づいてメトリクスを計算します。Mdl.MetricsWindowSize によってソフトウェアが Window メトリクスを更新する頻度も決まります。たとえば、Mdl.MetricsWindowSize が 20 の場合、関数は提供されたデータの最後の 20 個の観測値に基づいてメトリクスを計算します (X((end – 20 + 1):end,:) および Y((end – 20 + 1):end))。

        ウィンドウ内のパフォーマンス メトリクスを追跡するインクリメンタル関数は、次のプロセスを使用します。

        1. 指定された各メトリクスについて長さ Mdl.MetricsWindowSize のバッファーを保存し、観測値の重みのバッファーを保存します。

        2. 入力観測値のバッチに基づくモデル性能をメトリクス バッファーの要素に入力し、対応する観測値の重みを重みバッファーに格納します。

        3. バッファーがいっぱいになると、Mdl.Metrics.Window をメトリクス ウィンドウの性能の加重平均で上書きします。関数が観測値のバッチを処理するときにバッファーがあふれる場合、最新の入力観測値 Mdl.MetricsWindowSize がバッファーに入り、最も古い観測値がバッファーから削除されます。たとえば、Mdl.MetricsWindowSize が 20 で、メトリクス バッファーには前に処理されたバッチからの 10 個の値が存在し、15 個の値が入力されるとします。長さ 20 のウィンドウを構成するため、関数は 15 個の入力観測値からの測定値と前のバッチからの最新の 5 個の測定値を使用します。

    • CumulativeWindow のパフォーマンス メトリクスの値を計算する際、予測 (分類の場合はスコア、回帰の場合は応答) が NaN の観測値は省略されます。

    観測値の重み

    分類問題では、クラスの事前確率分布が既知の場合 (つまり、事前分布が経験的分布でない場合)、updateMetrics は、観測値の重みを正規化して、それぞれのクラスの事前クラス確率の合計になるようにします。このアクションは、観測値の重みが既定でそれぞれのクラスの事前確率であることを前提としています。

    回帰問題の場合、またはクラスの事前確率分布が経験的分布の場合、ソフトウェアは、updateMetrics が呼び出されるたびに、指定された観測値の重みを正規化して、合計が 1 になるようにします。

    バージョン履歴

    R2022a で導入