rrcforest
構文
説明
関数 rrcforest は、外れ値の検出と新規性の検出のためのロバスト ランダム カット フォレスト モデルの当てはめに使用します。
外れ値検出 (学習データ中の異常を検出) —
rrcforestの出力引数tfを使用して、学習データ中の異常を検出します。新規性の検出 (汚染されていない学習データで新規のデータの異常を検出) — 汚染されていない学習データ (外れ値がないデータ) を
rrcforestに渡してRobustRandomCutForestモデル オブジェクトを作成します。そのオブジェクトと新規データをオブジェクト関数isanomalyに渡して、新規のデータの異常を検出します。
は、table forest = rrcforest(Tbl)Tbl の予測子データに対する RobustRandomCutForest モデル オブジェクトを返します。
では、前の構文におけるいずれかの入力引数の組み合わせに加えて、1 つ以上の名前と値の引数を使用してオプションを指定します。たとえば、学習データの 10% を異常として処理するには forest = rrcforest(___,Name=Value) と指定します。ContaminationFraction=0.1
例
入力引数
名前と値の引数
出力引数
詳細
アルゴリズム
rrcforest は、Tbl に含まれている NaN、'' (空の文字ベクトル)、"" (空の string)、<missing>、<undefined> の値と X に含まれている NaN 値を欠損値と見なします。
rrcforest は、欠損値を含む観測値を使用して、それらの観測値が有効な値をもつ変数の分岐を特定します。それらの観測値は、葉ノードではなく枝ノードに配置されることがあります。その場合、rrcforest は、それぞれの木について、枝ノードからルート ノードまで移動して比率 (Disp(x,C)/|C|) を計算します。すべての値が欠損値である観測値はルート ノードに配置されます。そのため、比率および異常スコアは、それぞれの木の学習観測値の数になります。これは、学習済みのロバスト ランダム カット フォレスト モデルで求められる異常スコアの最大値に相当します。それぞれの木の学習観測値の数は、名前と値の引数 NumObservationsPerLearner を使用して指定できます。
参照
[1] Guha, Sudipto, N. Mishra, G. Roy, and O. Schrijvers. "Robust Random Cut Forest Based Anomaly Detection on Streams," Proceedings of The 33rd International Conference on Machine Learning 48 (June 2016): 2712–21.
[2] Bartos, Matthew D., A. Mullapudi, and S. C. Troutman. "rrcf: Implementation of the Robust Random Cut Forest Algorithm for Anomaly Detection on Streams." Journal of Open Source Software 4, no. 35 (2019): 1336.
拡張機能
バージョン履歴
R2023a で導入


