isanomaly

ロバストランダムカットフォレストを使用したデータ中の異常の検出

R2023a 以降

ページ内をすべて折りたたむ

構文

tf = isanomaly(forest,Tbl)

tf = isanomaly(forest,X)

tf = isanomaly(___,Name=Value)

[tf,scores] = isanomaly(___)

説明

tf = isanomaly(forest,Tbl) は、RobustRandomCutForest モデルオブジェクト forest を使用して table Tbl 内の異常を検出し、Tbl の対応する行で異常が検出された場合に要素が true になる logical 配列 tf を返します。関数 rrcforest に table を渡して forest を作成した場合、この構文を使用する必要があります。

例

tf = isanomaly(forest,X) は、行列 X 内の異常を検出します。関数 rrcforest に行列を渡して forest を作成した場合、この構文を使用する必要があります。

tf = isanomaly(___,Name=Value) では、前の構文におけるいずれかの入力引数の組み合わせに加えて、1 つ以上の名前と値の引数を使用してオプションを指定します。たとえば、スコアが 0.5 を超える観測値を異常として識別するには、ScoreThreshold=0.5 を設定します。

例

[tf,scores] = isanomaly(___) は、Tbl または X の各観測値についての範囲 [0,Inf) の異常スコアも返します。小さい正の値は正常な観測値を示し、大きい正の値は異常を示します。

例

すべて折りたたむ

新規性の検出

ライブスクリプトを開く

関数 rrcforest を使用して、汚染されていない学習観測値用の RobustRandomCutForest モデルオブジェクトを作成します。次に、オブジェクトおよび新規データをオブジェクト関数 isanomaly に渡して、新規性 (新規データ中の異常) を検出します。

census1994.mat に保存されている 1994 年の国勢調査データを読み込みます。このデータセットには、個人の年収が $50,000 を超えるかどうかを予測するための、米国勢調査局の人口統計データが含まれています。

load census1994

census1994 には学習データセット adultdata およびテストデータセット adulttest が含まれています。

adultdata には外れ値が含まれていないと仮定します。ロバストランダムカットフォレストモデルに adultdata について学習させます。StandardizeData を true と指定して入力データを標準化します。

rng("default") % For reproducibility
[Mdl,tf,s] = rrcforest(adultdata,StandardizeData=true);

Mdl は RobustRandomCutForest モデルオブジェクトです。rrcforest は、学習データ adultdata の異常インジケーター tf および異常スコア s も返します。名前と値の引数 ContaminationFraction を 0 を超える値として指定していない場合、rrcforest はすべての学習観測値を正常な観測値として扱います。つまり tf の値はすべて logical 0 (false) となります。この関数によりスコアのしきい値が最大のスコア値に設定されます。しきい値を表示します。

Mdl.ScoreThreshold

ans = 
86.5315

学習させたロバストランダムカットフォレストモデルを使用して、adulttest 内の異常を見つけます。モデルに学習させるときに StandardizeData=true を指定したため、関数 isanomaly は、Mu プロパティと Sigma プロパティに格納されている学習データの予測子の平均と標準偏差をそれぞれ使用して入力データを標準化します。

[tf_test,s_test] = isanomaly(Mdl,adulttest);

関数 isanomaly は、adulttest の異常インジケーター tf_test およびスコア s_test を返します。既定では、isanomaly はしきい値 (Mdl.ScoreThreshold) を超えるスコアをもつ観測値を異常として識別します。

異常スコア s および s_test のヒストグラムを作成します。異常スコアのしきい値に垂直線を作成します。

histogram(s,Normalization="probability")
hold on
histogram(s_test,Normalization="probability")
xline(Mdl.ScoreThreshold,"r-",join(["Threshold" Mdl.ScoreThreshold]))
legend("Training Data","Test Data",Location="northwest")
hold off

Figure contains an axes object. The axes object contains 3 objects of type histogram, constantline. These objects represent Training Data, Test Data.

テストデータ中にある異常の観測値のインデックスを表示します。

find(tf_test)

ans = 
3541

テストデータの異常スコア分布は学習データの異常スコア分布と類似しているため、isanomaly は既定のしきい値でテストデータ中にある少数の異常を検出します。

しきい値近くの異常と観測値が見えるようにズームインします。

xlim([50 92])
ylim([0 0.001])

Figure contains an axes object. The axes object contains 3 objects of type histogram, constantline. These objects represent Training Data, Test Data.

名前と値のペア ScoreThreshold を使用して、異なるしきい値を指定できます。例については、異常スコアのしきい値の指定を参照してください。

異常スコアのしきい値の指定

ライブスクリプトを開く

isanomaly の名前と値の引数 ScoreThreshold を使用して、異常スコアのしきい値を指定します。

load census1994

census1994 には学習データセット adultdata およびテストデータセット adulttest が含まれています。

ロバストランダムカットフォレストモデルに adultdata について学習させます。StandardizeData を true と指定して入力データを標準化します。

rng("default") % For reproducibility
[Mdl,tf,scores] = rrcforest(adultdata,StandardizeData=true);

スコア値のヒストグラムをプロットします。既定のスコアのしきい値の位置に垂直線を作成します。

histogram(scores,Normalization="probability");
xline(Mdl.ScoreThreshold,"r-",join(["Threshold" Mdl.ScoreThreshold]))

Figure contains an axes object. The axes object contains 2 objects of type histogram, constantline.

学習させたロバストランダムカットフォレストモデルを使用して、テストデータ内の異常を見つけます。モデルの学習時に取得された既定のしきい値とは異なるしきい値を使用します。

まず、関数isoutlierを使用してスコアのしきい値を調べます。

[~,~,U] = isoutlier(scores)

U = 
14.0904

名前と値の引数 ScoreThreshold の値を U として指定します。

[tf_test,scores_test] = isanomaly(Mdl,adulttest,ScoreThreshold=U);
histogram(scores_test,Normalization="probability")
xline(U,"r-",join(["Threshold" U]))

Figure contains an axes object. The axes object contains 2 objects of type histogram, constantline.

入力引数

すべて折りたたむ

`forest` — 学習済みのロバストランダムカットフォレストモデル
`RobustRandomCutForest` モデルオブジェクト

学習済みのロバストランダムカットフォレストモデル。RobustRandomCutForest モデルオブジェクトとして指定します。

`Tbl` — 予測子データ
table

予測子データ。table として指定します。Tbl の各行は 1 つの観測値に、各列は 1 つの予測子変数に対応します。文字ベクトルの cell 配列ではない cell 配列と複数列の変数は使用できません。

table を使用して forest に学習させた場合、X ではなく Tbl を使用して予測子データを提供する必要があります。Tbl 内のすべての予測子変数は、変数名およびデータ型が学習データと同じでなければなりません。ただし、Tbl の列の順序が学習データの列の順序に対応する必要はありません。

データ型: table

`X` — 予測子データ
数値行列

予測子データ。数値行列として指定します。X の各行は 1 つの観測値に、各列は 1 つの予測子変数に対応します。

行列を使用して forest に学習させた場合、Tbl ではなく X を使用して予測子データを提供する必要があります。X の列を構成する変数の順序は、学習データと同じでなければなりません。

データ型: single | double

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

例: ScoreThreshold=0.75,UseParallel=true は、異常スコアのしきい値を 0.75 に設定し、計算を並列実行します。

`ScoreThreshold` — 異常スコアのしきい値
`forest.ScoreThreshold` (既定値) | 範囲 [0,`Inf`) の数値スカラー

異常スコアのしきい値。範囲 [0,Inf) の数値スカラーとして指定します。isanomaly は、スコアがこのしきい値を超える観測値を異常として識別します。

既定値は、forest の ScoreThreshold プロパティ値です。

例: ScoreThreshold=50

データ型: single | double

`UseParallel` — 並列実行のフラグ
`false` または `0` (既定値) | `true` または `1`

並列実行のフラグ。数値または logical 1 (true) または 0 (false) として指定します。UseParallel=true を指定した場合、関数 isanomaly は parfor を使用して for ループの反復を実行します。Parallel Computing Toolbox™ がある場合、ループが並列に実行されます。

例: UseParallel=true

データ型: logical

出力引数

すべて折りたたむ

`tf` — 異常インジケーター
logical 列ベクトル

異常インジケーター。logical 列ベクトルとして返されます。tf の要素は、Tbl または X の対応する行の観測値が異常であれば true、それ以外の場合は false になります。tf の長さは Tbl または X と同じです。

isanomaly は、scores がしきい値 (ScoreThreshold の値) を超える観測値を異常として識別します。

`scores` — 異常スコア
範囲 [0,`Inf`) の数値列ベクトル

異常スコア。範囲 [0,Inf) の値をもつ数値列ベクトルとして返されます。scores の長さは Tbl または X と同じで、scores の各要素に Tbl または X の対応する行の観測値に対する異常スコアが格納されます。小さい正の値は正常な観測値を示し、大きい正の値は異常を示します。

詳細

すべて折りたたむ

ロバストランダムカットフォレスト

ロバストランダムカットフォレストアルゴリズム[1]では、点によって生じるモデルの複雑度の変化に基づいて、その点を正常な点または異常として分類します。孤立森アルゴリズムと同様に、ロバストランダムカットフォレストアルゴリズムでは木のアンサンブルを作成します。2 つのアルゴリズムには、木の分岐変数の選択方法と異常スコアの定義方法に違いがあります。

関数 rrcforest は、学習観測値のロバストランダムカットフォレストモデル (ロバストランダムカットツリーのアンサンブル) を作成し、外れ値 (学習データ中の異常) を検出します。学習観測値の部分集合について、それぞれの木に次のように学習させます。

rrcforest は、それぞれの木について、学習観測値から標本を非復元抽出します。
rrcforest は、分岐変数を変数の範囲に対する比率に応じて選択し、分岐位置を一様に無作為に選択することで木を成長させます。それぞれの木について、すべての標本が個別の葉ノードに到達するまでこれが繰り返されます。

分岐変数の選択に範囲情報を使用することで、無関係な変数に対してロバストなアルゴリズムになります。

異常の記述は簡単ですが、異常によって残りのデータの記述が複雑になります。そのため、モデルに異常を追加すると、森モデルのモデルの複雑度が増します[1]。関数 rrcforest は、モデルの複雑度の変化を基に定義された異常スコアを使用して外れ値を識別します。

関数 isanomaly は、学習済みのロバストランダムカットフォレストモデルを使用してデータ中の異常を検出します。新規性の検出 (汚染されていない学習データで新規のデータの異常を検出) では、汚染されていない学習データ (外れ値がないデータ) でロバストランダムカットフォレストモデルに学習させ、このモデルを使用して新規のデータの異常を検出できます。新規のデータの各観測値について、それぞれの木の対応する葉ノードが特定された後、葉ノードによって生じるモデルの複雑度の変化が計算され、異常インジケーターおよび異常スコアが返されます。

異常スコア

ロバストランダムカットフォレストアルゴリズムでは、collusive 変位を異常スコアとして使用します。点 x の "collusive 変位" は、森モデルのモデルの複雑度に対する x の寄与を示します。小さい正の異常スコアの値は正常な観測値を示し、大きい正の値は異常を示します。

[1]で定義されているように、木 T のモデルの複雑度 |M(T)| は、学習データ Z のすべての点についてのパスの長さ (ルートノードから葉ノードまでの距離) の合計です。

$| M (T) | = \sum_{y \in Z} f (y, Z, T),$

ここで、f(y,Z,T) は木 T における y の深さです。x の変位は、x によって生じるモデルの複雑度の想定される変化を示すものと定義されます。

$Disp (x, Z) = \sum_{T, y \in Z - {x}} P (T) (f (y, Z, T) - f (y, Z - {x}, T^{'})),$

ここで、T' は Z – {x} の木です。Disp(x,Z) は、x を含む葉ノードの兄弟ノードに含まれる想定される点の数です。この定義は重複や準重複に対してロバストでなく、外れ値をマスクしてしまう原因になることがあります。外れ値をマスクしないように、ロバストランダムカットフォレストアルゴリズムでは、collusive 変位 CoDisp を使用して集合 C に x と x の colluders を含めます。

$CoDisp (x, Z) = E_{T} [\max_{x \in C \subseteq Z} \frac{1}{| C |} \sum_{y \in Z - C} (f (y, Z, T) - f (y, Z - C, T^{″}))],$

ここで、T" は Z – C の木、|C| は C に対する T の部分木の点の数です。

rrcforest の名前と値の引数 CollusiveDisplacement の既定値は "maximal" です。既定では、[2]で説明されているように、それぞれの木について、x の葉ノードからルートノードまで移動して比率 Disp(x,C)/|C| が最大になる集合 C が求められます。CollusiveDisplacement="average" を指定すると、それぞれの木について比率の平均が計算され、その平均の値を使用し collusive 変位の値が計算されます。

アルゴリズム

isanomaly は、Tbl に含まれている NaN、'' (空の文字ベクトル)、"" (空の string)、<missing>、<undefined> の値と X に含まれている NaN 値を欠損値と見なします。

isanomaly は、欠損値を含む観測値を使用して、それらの観測値が有効な値をもつ変数の分岐を特定します。それらの観測値は、葉ノードではなく枝ノードに配置されることがあります。その場合、isanomaly は、それぞれの木について、枝ノードからルートノードまで移動して比率 (Disp(x,C)/|C|) を計算します。すべての値が欠損値である観測値はルートノードに配置されます。そのため、比率および異常スコアは、それぞれの木の学習観測値の数になります。これは、学習済みのロバストランダムカットフォレストモデルで求められる異常スコアの最大値に相当します。それぞれの木の学習観測値の数は、名前と値の引数 NumObservationsPerLearner を使用して指定できます。

参照

[1] Guha, Sudipto, N. Mishra, G. Roy, and O. Schrijvers. "Robust Random Cut Forest Based Anomaly Detection on Streams," Proceedings of The 33rd International Conference on Machine Learning 48 (June 2016): 2712–21.

[2] Bartos, Matthew D., A. Mullapudi, and S. C. Troutman. "rrcf: Implementation of the Robust Random Cut Forest Algorithm for Anomaly Detection on Streams." Journal of Open Source Software 4, no. 35 (2019): 1336.

拡張機能

すべて展開する

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

並列実行するには、この関数を呼び出すときに名前と値の引数 UseParallel を true に設定します。

並列計算の全般的な情報については、自動並列サポートを使用した MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2023a で導入

参考

トピック

教師なし異常検出

isanomaly

構文

説明

例

新規性の検出

異常スコアのしきい値の指定

入力引数

forest — 学習済みのロバスト ランダム カット フォレスト モデル RobustRandomCutForest モデル オブジェクト

Tbl — 予測子データ table

X — 予測子データ 数値行列

名前と値の引数

ScoreThreshold — 異常スコアのしきい値 forest.ScoreThreshold (既定値) | 範囲 [0,Inf) の数値スカラー

UseParallel — 並列実行のフラグ false または 0 (既定値) | true または 1

出力引数

tf — 異常インジケーター logical 列ベクトル

scores — 異常スコア 範囲 [0,Inf) の数値列ベクトル

詳細

ロバスト ランダム カット フォレスト

異常スコア

アルゴリズム

参照

拡張機能

自動並列サポート Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

バージョン履歴

参考

トピック

`forest` — 学習済みのロバストランダムカットフォレストモデル
`RobustRandomCutForest` モデルオブジェクト

`Tbl` — 予測子データ
table

`X` — 予測子データ
数値行列

`ScoreThreshold` — 異常スコアのしきい値
`forest.ScoreThreshold` (既定値) | 範囲 [0,`Inf`) の数値スカラー

`UseParallel` — 並列実行のフラグ
`false` または `0` (既定値) | `true` または `1`

`tf` — 異常インジケーター
logical 列ベクトル

`scores` — 異常スコア
範囲 [0,`Inf`) の数値列ベクトル

ロバストランダムカットフォレスト

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。