incrementalDriftAwareLearner

インクリメンタル学習用のドリフト認識モデルを構築

R2022b 以降

説明

incrementalDriftAwareLearner は incrementalDriftAwareLearner モデルオブジェクトを作成します。これは、インクリメンタルな分類学習器または回帰学習器とインクリメンタルな概念ドリフト検出器が組み込まれたオブジェクトで、自己調整式のインクリメンタルな機械学習モデルを提供します。incrementalDriftAwareLearner は、インクリメンタル学習用のすべての分類モデルと回帰モデル、および Statistics and Machine Learning Toolbox™ でサポートされるすべての概念ドリフト検出法をサポートしています。

Statistics and Machine Learning Toolbox のほとんどのモデルオブジェクトとは異なり、incrementalDriftAwareLearner は直接呼び出すことができます。incrementalDriftAwareLearner オブジェクトを作成すると、インクリメンタルドリフト認識学習用に準備されます。

incrementalDriftAwareLearner は、概念ドリフトに適応するインクリメンタル学習に最適です。バッチドリフト検出に対する従来のアプローチについては、detectdrift を参照してください。

作成

incrementalDriftAwareLearner モデルオブジェクトは次の方法で作成できます。

いずれかのインクリメンタル学習器を使用してインクリメンタルな分類学習器または回帰学習器を開始します。そのインクリメンタル学習モデルを incrementalDriftAwareLearner の呼び出しで入力として渡します。以下に例を示します。
```
BaseLearner = incrementalClassificationLinear();
Mdl = incrementalDriftAwareLearner(BaseLearner);
```
いずれかのインクリメンタル学習器を使用してインクリメンタルな分類学習器または回帰学習器を開始します。incrementalConceptDriftDetector を使用してインクリメンタルな概念ドリフト検出器を開始します。そのインクリメンタル学習モデルと概念ドリフト検出器の両方を incrementalDriftAwareLearner の呼び出しで入力として渡します。以下に例を示します。
```
BaseLearner = incrementalRegressionKernel();
DDM = incrementalConceptDriftDetector("ddm",InputType="continuous");
Mdl = incrementalDriftAwareLearner(BaseLearner,DriftDetector=DDM);
```

構文

Mdl = incrementalDriftAwareLearner(BaseLearner)

Mdl = incrementalDriftAwareLearner(BaseLearner,Name=Value)

説明

Mdl = incrementalDriftAwareLearner(BaseLearner) は、既定のモデルパラメーターと既定のドリフト検出器をもつインクリメンタル学習用のドリフト認識モデル Mdl を返します。

例

Mdl = incrementalDriftAwareLearner(BaseLearner,Name=Value) は、名前と値の引数を使用して追加のオプションを設定します。たとえば、incrementalDriftAwareLearner(BaseLearner,DriftDetector=CDDetector,TrainingPeriod=1000) は、概念ドリフト検出器を事前定義された CDDetector と指定し、学習期間を 1000 個の観測値に設定します。

例

入力引数

すべて展開する

`BaseLearner` — 基になるインクリメンタルな分類モデルまたは回帰モデル
`incrementalClassificationKernel` オブジェクト | `incrementalClassificationLinear` オブジェクト | `incrementalClassificationECOC` オブジェクト | `incrementalClassificationNaiveBayes` オブジェクト | `incrementalRegressionKernel` オブジェクト | `incrementalRegressionLinear` オブジェクト

基になるインクリメンタルな分類モデルまたは回帰モデル。次のいずれかとして指定します。

分類	回帰
`incrementalClassificationKernel`	`incrementalRegressionKernel`
`incrementalClassificationLinear`	`incrementalRegressionLinear`
`incrementalClassificationECOC`
`incrementalClassificationNaiveBayes`

これらの学習器の作成方法については、対応するリファレンスページを参照してください。

名前と値の引数

すべて展開する

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

例: BufferSize=5000,TrainingPeriod=8000,StableCountLimit=6000 は、バッファーサイズを 5000、学習期間を 8000、リセットするまでの連続する安定状態の観測値の上限を 6000 と指定します。

`BufferSize` — 損失値を格納するバッファーのサイズ
7000 (既定値) | 整数スカラー

各学習観測値についての BaseLearner の損失値を格納するバッファーのサイズ。スカラー整数として指定します。

例: BufferSize=5000

データ型: single | double

`DriftDetector` — インクリメンタルな概念ドリフト検出器
`HoeffdingDriftDetectionMethod` オブジェクト | `DriftDetectionMethod` オブジェクト

ドリフトの監視と検出に使用するインクリメンタルな概念ドリフト検出器。HoeffdingDriftDetectionMethod オブジェクトまたは DriftDetectionMethod オブジェクトとして指定します。

BaseLearner がインクリメンタルな分類オブジェクトの場合、既定の検出器は移動平均法を使用する HoeffdingDriftDetectionMethod です。つまり、incrementalDriftAwareLearner は incrementalConceptDriftDetector("hddma") を使用してドリフト検出器を作成します。
BaseLearner がインクリメンタルな回帰オブジェクトの場合、既定では連続変数用の移動平均法を使用する HoeffdingDriftDetectionMethod です。つまり、incrementalDriftAwareLearner は incrementalConceptDriftDetector("hddma",InputType="continuous") を使用してドリフト検出器を作成します。

別の方法を使用するインクリメンタルな概念ドリフト検出器を指定するには、incrementalConceptDriftDetector のリファレンスページを参照してください。

例: DriftDetector=dd

`TrainingPeriod` — 学習に使用された観測値の数
10000 (既定値) | 整数スカラー

学習に使用された観測値の数。スカラー整数として指定します。

TrainingPeriod の値を Inf と指定すると、常に入力データで学習が行われます。

TrainingPeriod の値が BaseLearner.MetricsWarmupPeriod の値より小さい場合、incrementalDriftAwareLearner は TrainingPeriod の値を BaseLearner.MetricsWarmupPeriod として設定します。

例: TrainingPeriod=7000

データ型: single | double

`StableCountLimit` — ソフトリセットするまでの連続する `'Stable'` の観測値の最大数
40000 (既定値) | 整数スカラー

ソフトリセットするまでの連続する 'Stable' の観測値の最大数。スカラー整数として指定します。

例: StableCountLimit=35000

データ型: single | double

`WarningCountLimit` — リセットするまでの連続する `'Warning'` の観測値の最大数
1400 (既定値) | 整数スカラー

リセットするまでの連続する 'Warning' の観測値の最大数。スカラー整数として指定します。

例: WarningCountLimit=1000

データ型: single | double

プロパティ

すべて展開する

`BaseLearner` — 基になるインクリメンタルな分類モデルまたは回帰モデル
読み取り専用: `incrementalClassificationKernel` オブジェクト | `incrementalClassificationLinear` オブジェクト | `incrementalClassificationECOC` オブジェクト | `incrementalClassificationNaiveBayes` オブジェクト | `incrementalRegressionKernel` オブジェクト | `incrementalRegressionLinear` オブジェクト

このプロパティは読み取り専用です。

基になるインクリメンタルな分類モデルまたは回帰モデル。次のモデルオブジェクトのいずれかとして指定します。

分類	回帰
`incrementalClassificationKernel`	`incrementalRegressionKernel`
`incrementalClassificationLinear`	`incrementalRegressionLinear`
`incrementalClassificationECOC`
`incrementalClassificationNaiveBayes`

このプロパティは、入力引数 BaseLearner で設定されます。

BaseLearner のプロパティにアクセスするには、たとえば Mdl.BaseLearner.Solver のようにドット表記を使用します。

`DriftDetector` — 基になるインクリメンタルな概念ドリフト検出器
読み取り専用: `HoeffdingDriftDetectionMethod` オブジェクト | `DriftDetectionMethod` オブジェクト

このプロパティは読み取り専用です。

基になるインクリメンタルな概念ドリフト検出器。HoeffdingDriftDetectionMethod オブジェクトまたは DriftDetectionMethod オブジェクトのいずれかとして指定します。

このプロパティは、名前と値の引数 DriftDetector で設定されます。

DriftDetector のプロパティにアクセスするには、たとえば Mdl.DriftDetector.WarningThreshold のようにドット表記を使用します。

`TrainingPeriod` — 学習に使用された観測値の数
読み取り専用: 整数スカラー

このプロパティは読み取り専用です。

潜在的なドリフトの監視を開始するまでの学習に使用された観測値の数。スカラー整数として指定します。

このプロパティは、名前と値の引数 TrainingPeriod で設定されます。

データ型: double

`StableCountLimit` — ソフトリセットするまでの連続する `'Stable'` の観測値の最大数
読み取り専用: 整数スカラー

このプロパティは読み取り専用です。

ソフトリセットするまでの連続する 'Stable' の観測値の最大数。スカラー整数として指定します。

このプロパティは、名前と値の引数 StableCountLimit で設定されます。

データ型: double

`PreviousDriftStatus` — 最新のデータを学習する前の `DriftDetector` のステータス
読み取り専用: `'Stable'` | `'Warning'` | `'Drift'`

このプロパティは読み取り専用です。

最新のデータを学習する前の DriftDetector のステータス。'Stable'、'Warning'、または 'Drift' として指定します。

データ型: char

`DriftStatus` — `DriftDetector` の現在のステータス
読み取り専用: `'Stable'` | `'Warning'` | `'Drift'`

このプロパティは読み取り専用です。

最新のデータを学習した後の DriftDetector の現在のステータス。'Stable'、'Warning'、または 'Drift' として指定します。

データ型: char

`DriftDetected` — `DriftStatus` が `'Drift'` であるかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

このプロパティは読み取り専用です。

DriftStatus が 'Drift' であるかどうかを示すフラグ。logical 0 (false) または 1 (true) として指定します。

データ型: logical

`WarningCountLimit` — リセットするまでの連続する `'Warning'` の観測値の最大数
読み取り専用: 整数スカラー

このプロパティは読み取り専用です。

リセットするまでの連続する 'Warning' の観測値の最大数。スカラー整数として指定します。

データ型: double

`WarningDetected` — `DriftStatus` が `'Warning'` であるかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

このプロパティは読み取り専用です。

DriftStatus が 'Warning' であるかどうかを示すフラグ。logical 0 (false) または 1 (true) として指定します。

データ型: logical

`IsTraining` — `BaseLearner` で入力データでの学習を続行するかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

このプロパティは読み取り専用です。

BaseLearner で入力データでの学習を続行するかどうかを示すフラグ。logical 0 (false) または 1 (true) として指定します。

データ型: logical

`IsWarm` — モデルがパフォーマンスメトリクスを追跡するかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

このプロパティは読み取り専用です。

インクリメンタルモデルがパフォーマンスメトリクスを追跡するかどうかを示すフラグ。logical 0 (false) または 1 (true) として指定します。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。

インクリメンタルモデル Mdl は、インクリメンタル近似関数が (Mdl.BaseLearner.EstimationPeriod + MetricsWarmupPeriod) 個の観測値をインクリメンタルモデルに当てはめた後、"ウォーム" (IsWarm が true となる) になります。

値	説明
`true` または `1`	インクリメンタルモデル `Mdl` がウォームです。この結果、`updateMetrics` および `updateMetricsAndFit` が `Mdl` の `Metrics` プロパティのパフォーマンスメトリクスを追跡します。
`false` または `0`	インクリメンタルモデル `Mdl` がウォームではありません。`updateMetrics` および `updateMetricsAndFit` はパフォーマンスメトリクスを追跡せず、すべてのメトリクスの値が `NaN` になります。

データ型: logical

`NumPredictors` — 予測子変数の数
読み取り専用: 非負の数値スカラー

このプロパティは読み取り専用です。

予測子変数の数。非負の数値スカラーとして指定します。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。予測子変数の数は BaseLearner の開始時に指定できます。

データ型: double

`NumTrainingObservations` — インクリメンタルモデルに当てはめる観測値の数
読み取り専用: `0` (既定値) | 非負の数値スカラー

このプロパティは読み取り専用です。

インクリメンタルモデル Mdl に当てはめる観測値の数。非負の数値スカラーとして指定します。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。

NumTrainingObservations は、Mdl および学習データを fit または updateMetricsAndFit に渡すときに増加します。

メモ

従来式の学習済みモデルを変換して Mdl.BaseLearner を作成する場合、incrementalDriftAwareLearner は、従来式の学習済みモデルに当てはめる観測値の数を NumTrainingObservations に追加しません。

データ型: double

`Metrics` — モデルのパフォーマンスメトリクス
読み取り専用: table

このプロパティは読み取り専用です。

updateMetrics または updateMetricsAndFit によってインクリメンタル学習中に更新されたモデルのパフォーマンスメトリクス。m 行 2 列の table として指定します。ここで、m は、BaseLearner の開始時に名前と値の引数 Metrics で指定されたメトリクスの数です。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。

Metrics の列には Cumulative および Window のラベルが付けられます。

Cumulative – 要素 j は、メトリクス j で測定される、モデルがウォーム (IsWarm が 1) になった時点からの、モデルの性能です。
Window – 要素 j は、メトリクス j で測定され、MetricsWindowSize プロパティで指定されたウィンドウ内のすべての観測値に対して評価される、モデルの性能です。ソフトウェアは MetricsWindowSize 個の観測値を処理した後、Window を更新します。

行には、指定したメトリクスのラベルが付けられます。

データ型: table

`MetricsWarmupPeriod` — パフォーマンスメトリクスを追跡する前に当てはめる観測値の数
読み取り専用: 非負の整数

このプロパティは読み取り専用です。

インクリメンタルモデルが Metrics プロパティのパフォーマンスメトリクスを追跡する前に当てはめなければならない観測値の数。非負の整数として指定します。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。メトリクスのウォームアップ期間は BaseLearner の開始時に指定できます。

データ型: double

`MetricsWindowSize` — ウィンドウパフォーマンスメトリクスの計算に使用する観測値の数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

ウィンドウパフォーマンスメトリクスの計算に使用する観測値の数。正の整数として指定します。

incrementalDriftAwareLearner は、このプロパティを Mdl.BaseLearner から取得します。メトリクスのウィンドウサイズは BaseLearner の開始時に指定できます。

データ型: double

オブジェクト関数

`fit`	インクリメンタル学習用のドリフト認識学習器の新しいデータでの学習
`loss`	インクリメンタルドリフト認識学習器の回帰誤差または分類誤差
`perObservationLoss`	インクリメンタルドリフト認識学習器の観測値ごとの回帰誤差または分類誤差
`predict`	インクリメンタルドリフト認識学習モデルからの新しい観測の応答予測
`reset`	インクリメンタルドリフト認識学習器のリセット
`updateMetrics`	インクリメンタルドリフト認識学習モデルの新しいデータに基づくパフォーマンスメトリクスの更新
`updateMetricsAndFit`	インクリメンタルドリフト認識学習モデルの新しいデータに基づくパフォーマンスメトリクスの更新とモデルの学習

例

すべて折りたたむ

事前情報なしでのインクリメンタルドリフト認識学習器の作成

ライブスクリプトを開く

人の行動のデータセットを読み込みます。データをランダムにシャッフルします。

load humanactivity;
n = numel(actid);
rng(1) % For reproducibility
idx = randsample(n,n);

データセットの詳細については、コマンドラインで Description を入力してください。

予測子変数と応答変数を定義します。

X = feat(idx,:);
Y = actid(idx);

応答は、次の 5 つのクラスのいずれかになります。座る、立つ、歩く、走る、または踊る。被験者が移動しているかどうか (actid > 2) を基準に、応答を二分します。

Y = Y > 2;

データセットの後半部分のラベルを反転してドリフトをシミュレートします。

Y(floor(numel(Y)/2):end,:) = ~Y(floor(numel(Y)/2):end,:);

分類用の既定のインクリメンタルドリフト認識モデルを次のように開始します。

バイナリ分類用の既定のインクリメンタル線形 SVM モデルを作成します。
インクリメンタル線形 SVM モデルを使用して、既定のインクリメンタルドリフト認識モデルを開始します。

incMdl = incrementalClassificationLinear();
idaMdl = incrementalDriftAwareLearner(incMdl);

idaMdl は incrementalDriftAwareLearner モデルです。そのプロパティはすべて読み取り専用です。

データストリームの作成用に各チャンクの変数の数を事前に割り当てて、分類誤差を格納するための変数も割り当てます。

numObsPerChunk = 50;
nchunk = floor(n/numObsPerChunk);
ce = array2table(zeros(nchunk,2),'VariableNames',["Cumulative" "Window"]);

ドリフトステータスを追跡する変数を事前に割り当てます。

status = zeros(nchunk,1);
statusname = strings(nchunk,1);

それぞれ 50 個の観測値の入力チャンクを使用して、データストリームをシミュレートします。各反復で次を行います。

updateMetricsAndFit を呼び出して、パフォーマンスメトリクスを更新し、ドリフト認識モデルを入力データに当てはめます。前のインクリメンタルモデルを新しいモデルで上書きします。
累積と反復ごとの分類誤差を ce に格納します。idaMdl の Metrics プロパティに累積とウィンドウの分類誤差が格納され、各反復で更新されます。

for j = 1:nchunk
 ibegin = min(n,numObsPerChunk*(j-1)+1);
 iend   = min(n,numObsPerChunk*j);
 idx = ibegin:iend;    

 idaMdl = updateMetricsAndFit(idaMdl,X(idx,:),Y(idx));

 statusname(j) = string(idaMdl.DriftStatus);
 if idaMdl.DriftDetected
       status(j) = 2;  
    elseif idaMdl.WarningDetected
       status(j) = 1;
    else 
       status(j) = 0;
    end   
 ce{j,:} = idaMdl.Metrics{"ClassificationError",:};
end

関数 updateMetricsAndFit は、まず updateMetrics を呼び出して入力データでモデルの性能を評価し、次に fit を呼び出してモデルをデータに当てはめます。

関数 updateMetrics は、入力観測値を処理しながらモデルの性能を評価します。指定したメトリクスについて、関数で処理された観測値の累積の測定値と指定したウィンドウにおける測定値が Metrics モデルプロパティに書き込まれます。

関数 fit は、データの入力バッチに基づいてベース学習器を更新してドリフトを監視することでモデルを当てはめます。fit を呼び出すと、次の手順が実行されます。

最大 NumTrainingObservations 個の観測値について、モデルの学習が行われます。
学習が完了すると、モデル損失の追跡が開始されます。概念ドリフトが発生していないかどうかがチェックされ、ドリフトステータスが適宜更新されます。
ドリフトステータスが Warning の場合、差し迫ったドリフトに備えて、BaseLearner に置き換わる一時的なモデルの学習が行われます。
ドリフトステータスが Drift の場合、BaseLearner が一時的なモデルに置き換えられます。
ドリフトステータスが Stable の場合、一時的なモデルが破棄されます。

詳細については、"アルゴリズム" のセクションを参照してください。

累積とウィンドウごとの分類誤差をプロットします。ウォームアップ期間と学習期間、およびドリフトが発生した時点をマークします。

h = plot(ce.Variables);

xlim([0 nchunk])
ylabel("Classification Error")
xlabel("Iteration")

xline(idaMdl.MetricsWarmupPeriod/numObsPerChunk,"g-.","Warmup Period",LineWidth= 1.5)
xline(idaMdl.TrainingPeriod/numObsPerChunk,"b-.","Training Period",LabelVerticalAlignment="middle",LineWidth= 1.5)
xline(floor(numel(Y)/2)/numObsPerChunk,"m--","Drift",LabelVerticalAlignment="middle",LineWidth= 1.5)

legend(h,ce.Properties.VariableNames)
legend(h,Location="best")

Figure contains an axes object. The axes object with xlabel Iteration, ylabel Classification Error contains 5 objects of type line, constantline. These objects represent Cumulative, Window.

ドリフトステータスと反復回数の関係をプロットします。

figure()
gscatter(1:nchunk,status,statusname,'gmr','*ox',[4 5 5],'on',"Iteration","Drift Status","filled")

Figure contains an axes object. The axes object with xlabel Iteration, ylabel Drift Status contains 2 objects of type line. One or more of the lines displays its values using only markers These objects represent Stable, Drift.

パフォーマンスメトリクスの計算と概念ドリフトの監視

ライブスクリプトを開く

補助関数の HelperSineGenerator と HelperConceptDriftGenerator をそれぞれ使用して、ランダムな概念データと概念ドリフト発生器を作成します。

concept1 = HelperSineGenerator(ClassificationFunction=1,IrrelevantFeatures=true,TableOutput=false);
concept2 = HelperSineGenerator(ClassificationFunction=3,IrrelevantFeatures=true,TableOutput=false);
driftGenerator = HelperConceptDriftGenerator(concept1,concept2,15000,1000);

ClassificationFunction が 1 の場合、HelperSineGenerator は "x1" < "sin(x2)" を満たすすべての点に 1 のラベルを付け、それ以外に 0 のラベルを付けます。ClassificationFunction が 3 の場合はその逆になります。つまり、HelperSineGenerator は、"x1" >= "sin(x2)" を満たすすべての点に 1 のラベルを付け、それ以外に 0 のラベルを付けます [2]。そのデータがインクリメンタル学習器で使用するために行列として返されます。

HelperConceptDriftGenerator は、概念ドリフトを確立します。このオブジェクトでは、シグモイド関数 1./(1+exp(-4*(numobservations-position)./width)) を使用して、データ生成時に 1 つ目のストリームが選択される確率を判定します [3]。この例では、位置の引数が 15000 で、幅の引数が 1000 です。観測値の数が位置の値から幅の半分を引いた値を超えると、データ生成時に 1 つ目のストリームから抽出される確率が低下します。このシグモイド関数により、一方のストリームからもう一方への滑らかな遷移が実現します。幅の値が大きいほど、両方のストリームがほぼ等しい確率で選択される遷移期間が大きいことを示します。

分類用のインクリメンタルドリフト認識モデルを次のように開始します。

バイナリ分類用のインクリメンタル単純ベイズ分類モデルを作成します。
移動平均による Hoeffding 境界のドリフト検出法 (HDDMA) を使用するインクリメンタルな概念ドリフト検出器を開始します。
インクリメンタル線形モデルと概念ドリフト検出器を使用して、インクリメンタルドリフト認識モデルを開始します。学習期間を 5000 個の観測値として指定します。

BaseLearner = incrementalClassificationNaiveBayes(MaxNumClasses=2,Metrics="classiferror");
dd = incrementalConceptDriftDetector("hddma");
idal = incrementalDriftAwareLearner(BaseLearner,DriftDetector=dd,TrainingPeriod=5000);

データストリームの作成用に各チャンクの変数の数と反復回数を事前に割り当てます。

numObsPerChunk = 10;
numIterations = 4000;

ドリフトステータスとドリフト時間を追跡する変数、および分類誤差を格納する変数を事前に割り当てます。

dstatus = zeros(numIterations,1);
statusname = strings(numIterations,1);
driftTimes = [];
ce = array2table(zeros(numIterations,2),VariableNames=["Cumulative" "Window"]);

それぞれ 10 個の観測値の入力チャンクを使用してデータストリームをシミュレートし、インクリメンタルドリフト認識学習を実行します。各反復で次を行います。

予測子データとラベルをシミュレートし、補助関数 hgenerate を使用して driftGenerator を更新します。
updateMetricsAndFit を呼び出して、パフォーマンスメトリクスを更新し、インクリメンタルドリフト認識モデルを入力データに当てはめます。
可視化のためにドリフトステータスと分類誤差を追跡して記録します。

rng(12); % For reproducibility

for j = 1:numIterations
 
 % Generate data
 [driftGenerator,X,Y] = hgenerate(driftGenerator,numObsPerChunk); 

 % Update performance metrics and fit
 idal = updateMetricsAndFit(idal,X,Y); 

 % Record drift status and classification error
 statusname(j) = string(idal.DriftStatus); 
 ce{j,:} = idal.Metrics{"ClassificationError",:};
 if idal.DriftDetected
       dstatus(j) = 2;  
    elseif idal.WarningDetected
       dstatus(j) = 1;
    else 
       dstatus(j) = 0;
    end   
 if idal.DriftDetected
    driftTimes(end+1) = j; 
 end
 
end

累積とウィンドウごとの分類誤差をプロットします。ウォームアップ期間と学習期間、およびドリフトが発生した時点をマークします。

h = plot(ce.Variables);

xlim([0 numIterations])
ylim([0 0.22])
ylabel("Classification Error")
xlabel("Iteration")

xline(idal.MetricsWarmupPeriod/numObsPerChunk,"g-.","Warmup Period",LineWidth=1.5)
xline(idal.MetricsWarmupPeriod/numObsPerChunk+driftTimes,"g-.","Warmup Period",LineWidth=1.5)
xline(idal.TrainingPeriod/numObsPerChunk,"b-.","Training Period",LabelVerticalAlignment="middle",LineWidth=1.5)
xline(driftTimes,"m--","Drift",LabelVerticalAlignment="middle",LineWidth=1.5)

legend(h,ce.Properties.VariableNames)
legend(h,Location="best")

Figure contains an axes object. The axes object with xlabel Iteration, ylabel Classification Error contains 6 objects of type line, constantline. These objects represent Cumulative, Window.

最大 NumTrainingObservations 個の観測値について、モデルの学習が行われます。
学習が完了すると、モデル損失の追跡が開始されます。概念ドリフトが発生していないかどうかがチェックされ、ドリフトステータスが適宜更新されます。
ドリフトステータスが Warning の場合、差し迫ったドリフトに備えて、BaseLearner に置き換わる一時的なモデルの学習が行われます。
ドリフトステータスが Drift の場合、BaseLearner が一時的なモデルに置き換えられます。
ドリフトステータスが Stable の場合、一時的なモデルが破棄されます。

詳細については、"アルゴリズム" のセクションを参照してください。

ドリフトステータスと反復回数の関係をプロットします。

gscatter(1:numIterations,dstatus,statusname,"gmr","o",5,"on","Iteration","Drift Status","filled")

Figure contains an axes object. The axes object with xlabel Iteration, ylabel Drift Status contains 3 objects of type line. One or more of the lines displays its values using only markers These objects represent Stable, Warning, Drift.

回帰モデルの概念ドリフトの監視

ライブスクリプトを開く

補助関数の HelperRegrGenerator と HelperConceptDriftGenerator をそれぞれ使用して、ランダムな概念データと概念ドリフト発生器を作成します。

concept1 = HelperRegrGenerator(NumFeatures=100,NonZeroFeatures=[1,20,40,50,55], ...
    FeatureCoefficients=[4,5,10,-2,-6],NoiseStd=1.1,TableOutput=false);
concept2 = HelperRegrGenerator(NumFeatures=100,NonZeroFeatures=[10,20,45,56,80], ...
    FeatureCoefficients=[4,5,10,-2,-6],NoiseStd=1.1,TableOutput=false);
driftGenerator = HelperConceptDriftGenerator(concept1,concept2,15000,1000);

HelperRegrGenerator は、関数の呼び出しで指定された回帰用の特徴量と特徴量係数を使用してストリーミングデータを生成します。この関数は、各ステップで正規分布から予測子を抽出します。その後、関数は特徴量係数と予測子の値を使用して、平均がゼロで指定のノイズ標準偏差をもつ正規分布からランダムノイズを追加することで応答を計算します。そのデータがインクリメンタル学習器で使用するために行列として返されます。

回帰用のインクリメンタルドリフト認識モデルを次のように開始します。

回帰用のインクリメンタル線形モデルを作成します。線形回帰モデルのタイプとソルバーのタイプを指定します。
移動平均による Hoeffding 境界のドリフト検出法 (HDDMA) を使用するインクリメンタルな概念ドリフト検出器を開始します。
インクリメンタル線形モデルと概念ドリフト検出器を使用して、インクリメンタルドリフト認識モデルをインスタンス化します。学習期間を 6000 個の観測値として指定します。

baseMdl = incrementalRegressionLinear(Learner="leastsquares",Solver="sgd",EstimationPeriod=1000,Standardize=false);
dd = incrementalConceptDriftDetector("hddma",Alternative="greater",InputType="continuous",WarmupPeriod=1000);
idal = incrementalDriftAwareLearner(baseMdl,DriftDetector=dd,TrainingPeriod=6000);

データストリームの作成用に各チャンクの変数の数と反復回数を事前に割り当てます。

numObsPerChunk = 10;
numIterations = 4000;

ドリフトステータスとドリフト時間を追跡する変数、および回帰誤差を格納する変数を事前に割り当てます。

dstatus = zeros(numIterations,1);
statusname = strings(numIterations,1);
driftTimes = [];
ce = array2table(zeros(numIterations,2),VariableNames=["Cumulative" "Window"]);

予測子データとラベルをシミュレートし、補助関数 hgenerate を使用してドリフト発生器を更新します。
updateMetricsAndFit を呼び出して、パフォーマンスメトリクスを更新し、インクリメンタルドリフト認識モデルを入力データに当てはめます。
可視化のためにドリフトステータスと回帰誤差を追跡して記録します。

rng(12); % For reproducibility

for j = 1:numIterations
 
 % Generate data
 [driftGenerator,X,Y] = hgenerate(driftGenerator,numObsPerChunk); 

 % Update performance metrics and fit
 idal = updateMetricsAndFit(idal,X,Y); 

 % Record drift status and regression error
 statusname(j) = string(idal.DriftStatus); 
 ce{j,:} = idal.Metrics{"MeanSquaredError",:};
 if idal.DriftDetected
       dstatus(j) = 2;  
    elseif idal.WarningDetected
       dstatus(j) = 1;
    else 
       dstatus(j) = 0;
    end   
 if idal.DriftDetected
    driftTimes(end+1) = j; 
 end
end

累積とウィンドウごとの回帰誤差をプロットします。ウォームアップ期間と学習期間、およびドリフトが発生した時点をマークします。

h = plot(ce.Variables);

xlim([0 numIterations])
ylabel("Mean Squared Error")
xlabel("Iteration")

xline((idal.MetricsWarmupPeriod+idal.BaseLearner.EstimationPeriod)/numObsPerChunk,"g-.","Warmup Period",LineWidth=1.5)
xline(idal.TrainingPeriod/numObsPerChunk,"b-.","Training Period",LabelVerticalAlignment="middle",LineWidth=1.5)
xline(driftTimes,"m--","Drift",LabelVerticalAlignment="middle",LineWidth=1.5)

legend(h,ce.Properties.VariableNames)
legend(h,Location="best")

Figure contains an axes object. The axes object with xlabel Iteration, ylabel Mean Squared Error contains 5 objects of type line, constantline. These objects represent Cumulative, Window.

ドリフトステータスと反復回数の関係をプロットします。

gscatter(1:numIterations,dstatus,statusname,'gmr','o',5,'on',"Iteration","Drift Status","filled")

アルゴリズム

すべて展開する

インクリメンタルドリフト認識学習

"インクリメンタル学習" ("オンライン学習") は、予測子変数の分布、予測関数や目的関数の素性 (調整パラメーターの値を含む)、観測値にラベル付けがされているか等についてほぼ知識が無い時に、データストリームから入ってくるデータを処理することに関係している機械学習の一分野です。従来の機械学習は、モデルへの当てはめに十分にラベル付けされたデータを使用でき、交差検証を実施してハイパーパラメーターを調整し、予測子の分布を推論するもので、インクリメンタル学習と異なります。詳細については、インクリメンタル学習の概要を参照してください。

Statistics and Machine Learning Toolbox で提供される他のインクリメンタル学習機能と異なり、incrementalDriftAwareLearner モデルオブジェクトはインクリメンタル学習と概念ドリフト検出の組み合わせで構成されます。

incrementalDriftAwareLearner オブジェクトを作成した後、updateMetrics を使用してモデルのパフォーマンスメトリクスを更新し、fit を使用して入力データチャンクにベースモデルを当てはめ、モデルの性能に潜在的なドリフト (概念ドリフト) がないかどうかをチェックし、インクリメンタルドリフト認識学習器を必要に応じて更新またはリセットします。updateMetricsAndFit も使用できます。関数 fit は反応性ドリフト検出法 (RDDM) [1]を次のように実装します。

Mdl.BaseLearner.EstimationPeriod (必要な場合) と MetricsWarmupPeriod の経過後、関数はインクリメンタルドリフト認識モデルに最大 NumTrainingObservations 個の観測値を TrainingPeriod に達するまで学習させます。(TrainingPeriod の値が Mdl.BaseLearner.MetricsWarmupPeriod の値より小さい場合、incrementalDriftAwareLearner は TrainingPeriod の値を Mdl.BaseLearner.MetricsWarmupPeriod として設定します。)
NumTrainingObservations > TrainingPeriod になった時点で、モデル損失の追跡が開始されます。関数 perObservationLoss を使用して観測値ごとの損失が計算されます。観測値ごとの損失の計算では、損失のメトリクスとして、分類モデルには "classiferror"、回帰モデルには "squarederror" が使用されます。その後、関数は最後のデータチャンクを使用して計算された損失値を既存のバッファーの損失値に追加します。
次に、関数 detectdrift を使用して概念ドリフトが発生していないかどうかがチェックされ、DriftStatus が適宜更新されます。

ドリフトステータスに基づいて、fit は次の手順を実行します。

DriftStatus が 'Warning' – 最初に、連続する 'Warning' ステータスのカウントに 1 が加算されます。
- 連続する 'Warning' ステータスのカウントが WarningCountLimit の値より小さく、PreviousDriftStatus の値が Stable である場合、一時的なインクリメンタル学習器に学習させ (存在しない場合)、その学習器 (または既存の学習器) を BaseLearner に設定します。
  その後、学習器の関数 reset を使用して一時的なインクリメンタル学習器をリセットします。
- 連続する 'Warning' ステータスのカウントが WarningCountLimit の値より小さく、PreviousDriftStatus の値が 'Warning' である場合、既存の一時的なインクリメンタルモデルに最新のデータチャンクを使用して学習させます。
- 連続する 'Warning' ステータスのカウントが WarningCountLimit の値より大きい場合、DriftStatus の値を 'Drift' に設定します。
DriftStatus が 'Drift' – 次の手順が実行されます。
- 連続する 'Warning' ステータスのカウントを 0 に設定します。
- 関数 reset を使用して DriftDetector をリセットします。
- バッファーの損失値を空にし、最新のデータチャンクの損失値をバッファーの損失値に追加します。
- 一時的なインクリメンタルモデルが空でない場合、現在の BaseLearner の値を一時的なインクリメンタルモデルに設定し、一時的なインクリメンタルモデルを空にします。
- 一時的なインクリメンタルモデルが空の場合、学習器の関数 reset を使用して BaseLearner の値をリセットします。
DriftStatus が 'Stable' – 最初に、連続する 'Stable' ステータスのカウントに 1 が加算されます。
- 連続する 'Stable' ステータスのカウントが StableCountLimit より小さく、PreviousDriftStatus の値が 'Warning' である場合、警告数をゼロに設定し、一時的なモデルを空にします。
- 連続する 'Stable' ステータスのカウントが StableCountLimit の値より大きい場合、関数 reset を使用して DriftDetector をリセットします。その後、バッファーに保存されているすべての損失値について、概念ドリフトがないかどうかを関数 detectdrift を使用してテストします。

DriftStatus が 'Drift' に設定され、BaseLearner と DriftDetector がリセットされると、Mdl.BaseLearner.EstimationPeriod + Mdl.BaseLearner.MetricsWarmupPeriod が経過するまで待機してからパフォーマンスメトリクスの計算を開始します。

パフォーマンスメトリクス

関数 updateMetrics および updateMetricsAndFit は、インクリメンタルモデルが "ウォーム" (Mdl.BaseLearner.IsWarm プロパティ) のときに、新しいデータからモデルのパフォーマンスメトリクス (Metrics) を追跡します。インクリメンタルモデルは、fit または updateMetricsAndFit がインクリメンタルモデルを MetricsWarmupPeriod 個の観測値 ("メトリクスのウォームアップ期間") に当てはめた後、ウォームになります。
Mdl.BaseLearner.EstimationPeriod > 0 の場合、関数はモデルをデータに当てはめる前にハイパーパラメーターを推定します。そのため、関数は、モデルがメトリクスのウォームアップ期間を開始する前に EstimationPeriod 個の観測値を追加で処理しなければなりません。
インクリメンタルモデルの Metrics プロパティは、各パフォーマンスメトリクスの 2 つの形式を table の変数 (列) Cumulative および Window とし、個々のメトリクスを行に格納します。インクリメンタルモデルがウォームになると、updateMetrics および updateMetricsAndFit は次の頻度でメトリクスを更新します。
- Cumulative — 関数は、モデルの性能追跡の開始以降の累積メトリクスを計算します。関数は、モデルがリセットされるまで、関数が呼び出されるたびにメトリクスを更新し、提供されたデータセット全体に基づいて計算を行います。
- Window — 関数は、名前と値の引数 MetricsWindowSize によって決定されたウィンドウ内のすべての観測値に基づいてメトリクスを計算します。MetricsWindowSize によってソフトウェアが Window メトリクスを更新する頻度も決まります。たとえば、MetricsWindowSize が 20 の場合、関数は提供されたデータの最後の 20 個の観測値に基づいてメトリクスを計算します (X((end – 20 + 1):end,:) および Y((end – 20 + 1):end))。
  ウィンドウ内のパフォーマンスメトリクスを追跡するインクリメンタル関数は、次のプロセスを使用します。
  1. 指定された各メトリクスについて MetricsWindowSize の量の値を格納し、同じ量の観測値の重みを格納します。
  2. 入力観測値のバッチに基づくモデル性能をメトリクス値の要素に入力し、対応する観測値の重みを格納します。
  3. 観測値のウィンドウがいっぱいになると、Mdl.Metrics.Window をメトリクスウィンドウの性能の加重平均で上書きします。関数が観測値のバッチを処理するときにウィンドウがあふれる場合、最新の入力観測値 MetricsWindowSize が格納され、最も古い観測値がウィンドウから削除されます。たとえば、MetricsWindowSize が 20 で、前に処理されたバッチからの 10 個の値が格納されていて、15 個の値が入力されるとします。長さ 20 のウィンドウを構成するため、関数は 15 個の入力観測値からの測定値と前のバッチからの最新の 5 個の測定値を使用します。

Cumulative と Window のパフォーマンスメトリクスの値を計算する際、スコアが NaN の観測値は省略されます。

参照

[1] Barros, Roberto S.M. , et al. "RDDM: Reactive drift detection method." Expert Systems with Applications. vol. 90, Dec. 2017, pp. 344-55. https://doi.org/10.1016/j.eswa.2017.08.023.

[2] Bifet, Albert, et al. "New Ensemble Methods for Evolving Data Streams." Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM Press, 2009, p. 139. https://doi.org/10.1145/1557019.1557041.

[3] Gama, João, et al. "Learning with drift detection". Advances in Artificial Intelligence – SBIA 2004, edited by Ana L. C. Bazzan and Sofiane Labidi, vol. 3171, Springer Berlin Heidelberg, 2004, pp. 286–95. https://doi.org/10.1007/978-3-540-28645-5_29.

バージョン履歴

R2022b で導入

参考

incrementalConceptDriftDetector | DriftDetectionMethod | HoeffdingDriftDetectionMethod | インクリメンタル学習の概要

incrementalDriftAwareLearner

説明

作成

構文

説明

入力引数

名前と値の引数

BufferSize — 損失値を格納するバッファーのサイズ 7000 (既定値) | 整数スカラー

DriftDetector — インクリメンタルな概念ドリフト検出器 HoeffdingDriftDetectionMethod オブジェクト | DriftDetectionMethod オブジェクト

TrainingPeriod — 学習に使用された観測値の数 10000 (既定値) | 整数スカラー

StableCountLimit — ソフト リセットするまでの連続する 'Stable' の観測値の最大数 40000 (既定値) | 整数スカラー

WarningCountLimit — リセットするまでの連続する 'Warning' の観測値の最大数 1400 (既定値) | 整数スカラー

プロパティ

DriftDetector — 基になるインクリメンタルな概念ドリフト検出器 読み取り専用: HoeffdingDriftDetectionMethod オブジェクト | DriftDetectionMethod オブジェクト

TrainingPeriod — 学習に使用された観測値の数 読み取り専用: 整数スカラー

StableCountLimit — ソフト リセットするまでの連続する 'Stable' の観測値の最大数 読み取り専用: 整数スカラー

PreviousDriftStatus — 最新のデータを学習する前の DriftDetector のステータス 読み取り専用: 'Stable' | 'Warning' | 'Drift'

DriftStatus — DriftDetector の現在のステータス 読み取り専用: 'Stable' | 'Warning' | 'Drift'

DriftDetected — DriftStatus が 'Drift' であるかどうかを示すフラグ 読み取り専用: false または 0 | true または 1

WarningCountLimit — リセットするまでの連続する 'Warning' の観測値の最大数 読み取り専用: 整数スカラー

WarningDetected — DriftStatus が 'Warning' であるかどうかを示すフラグ 読み取り専用: false または 0 | true または 1

IsTraining — BaseLearner で入力データでの学習を続行するかどうかを示すフラグ 読み取り専用: false または 0 | true または 1

IsWarm — モデルがパフォーマンス メトリクスを追跡するかどうかを示すフラグ 読み取り専用: false または 0 | true または 1

NumPredictors — 予測子変数の数 読み取り専用: 非負の数値スカラー

NumTrainingObservations — インクリメンタル モデルに当てはめる観測値の数 読み取り専用: 0 (既定値) | 非負の数値スカラー

Metrics — モデルのパフォーマンス メトリクス 読み取り専用: table

MetricsWarmupPeriod — パフォーマンス メトリクスを追跡する前に当てはめる観測値の数 読み取り専用: 非負の整数

MetricsWindowSize — ウィンドウ パフォーマンス メトリクスの計算に使用する観測値の数 読み取り専用: 正の整数

オブジェクト関数

例

事前情報なしでのインクリメンタル ドリフト認識学習器の作成

パフォーマンス メトリクスの計算と概念ドリフトの監視

回帰モデルの概念ドリフトの監視

アルゴリズム

インクリメンタル ドリフト認識学習

パフォーマンス メトリクス

参照

バージョン履歴

参考

`BufferSize` — 損失値を格納するバッファーのサイズ
7000 (既定値) | 整数スカラー

`DriftDetector` — インクリメンタルな概念ドリフト検出器
`HoeffdingDriftDetectionMethod` オブジェクト | `DriftDetectionMethod` オブジェクト

`TrainingPeriod` — 学習に使用された観測値の数
10000 (既定値) | 整数スカラー

`StableCountLimit` — ソフトリセットするまでの連続する `'Stable'` の観測値の最大数
40000 (既定値) | 整数スカラー

`WarningCountLimit` — リセットするまでの連続する `'Warning'` の観測値の最大数
1400 (既定値) | 整数スカラー

`DriftDetector` — 基になるインクリメンタルな概念ドリフト検出器
読み取り専用: `HoeffdingDriftDetectionMethod` オブジェクト | `DriftDetectionMethod` オブジェクト

`TrainingPeriod` — 学習に使用された観測値の数
読み取り専用: 整数スカラー

`StableCountLimit` — ソフトリセットするまでの連続する `'Stable'` の観測値の最大数
読み取り専用: 整数スカラー

`PreviousDriftStatus` — 最新のデータを学習する前の `DriftDetector` のステータス
読み取り専用: `'Stable'` | `'Warning'` | `'Drift'`

`DriftStatus` — `DriftDetector` の現在のステータス
読み取り専用: `'Stable'` | `'Warning'` | `'Drift'`

`DriftDetected` — `DriftStatus` が `'Drift'` であるかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

`WarningCountLimit` — リセットするまでの連続する `'Warning'` の観測値の最大数
読み取り専用: 整数スカラー

`WarningDetected` — `DriftStatus` が `'Warning'` であるかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

`IsTraining` — `BaseLearner` で入力データでの学習を続行するかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

`IsWarm` — モデルがパフォーマンスメトリクスを追跡するかどうかを示すフラグ
読み取り専用: `false` または `0` | `true` または `1`

`NumPredictors` — 予測子変数の数
読み取り専用: 非負の数値スカラー

`NumTrainingObservations` — インクリメンタルモデルに当てはめる観測値の数
読み取り専用: `0` (既定値) | 非負の数値スカラー

`Metrics` — モデルのパフォーマンスメトリクス
読み取り専用: table

`MetricsWarmupPeriod` — パフォーマンスメトリクスを追跡する前に当てはめる観測値の数
読み取り専用: 非負の整数

`MetricsWindowSize` — ウィンドウパフォーマンスメトリクスの計算に使用する観測値の数
読み取り専用: 正の整数

事前情報なしでのインクリメンタルドリフト認識学習器の作成

パフォーマンスメトリクスの計算と概念ドリフトの監視

インクリメンタルドリフト認識学習

パフォーマンスメトリクス