isanomaly

1 クラスサポートベクターマシン (SVM) を使用したデータ中の異常の検出

R2022b 以降

ページ内をすべて折りたたむ

構文

tf = isanomaly(Mdl,Tbl)

tf = isanomaly(Mdl,X)

tf = isanomaly(___,ScoreThreshold=scoreThreshold)

[tf,scores] = isanomaly(___)

説明

tf = isanomaly(Mdl,Tbl) は、OneClassSVM オブジェクト Mdl を使用して table Tbl 内の異常を検出し、Tbl の対応する行で異常が検出された場合に要素が true になる logical 配列 tf を返します。関数 ocsvm に table を渡して Mdl を作成した場合、この構文を使用する必要があります。

例

tf = isanomaly(Mdl,X) は、行列 X 内の異常を検出します。関数 ocsvm に行列を渡して Mdl を作成した場合、この構文を使用する必要があります。

tf = isanomaly(___,ScoreThreshold=scoreThreshold) は、前の構文におけるいずれかの入力引数の組み合わせを使用して、異常スコアのしきい値を指定します。isanomaly は、スコアが scoreThreshold を超える観測値を異常として識別します。

例

[tf,scores] = isanomaly(___) は、Tbl または X の各観測値についての範囲 (–inf,inf) の異常スコアも返します。振幅が大きな負のスコア値は正常な観測値を示し、大きい正の値は異常を示します。

例

すべて折りたたむ

新規性の検出

ライブスクリプトを開く

関数 ocsvm を使用して、汚染されていない学習観測値用の OneClassSVM オブジェクトを作成します。次に、オブジェクトおよび新規データをオブジェクト関数 isanomaly に渡して、新規性 (新規データ中の異常) を検出します。

census1994.mat に保存されている 1994 年の国勢調査データを読み込みます。このデータセットは、個人の年収が $50,000 を超えるかどうかを予測するための、米国勢調査局の人口統計データから構成されます。

load census1994

census1994 には学習データセット adultdata およびテストデータセット adulttest が含まれています。

ocsvm は、欠損値のある観測値は使用しません。データセットの欠損値を削除すると、メモリ消費が減って学習が高速化します。

adultdata = rmmissing(adultdata);
adulttest = rmmissing(adulttest);

adultdata 用に 1 クラス SVM に学習させます。adultdata には外れ値が含まれていないと仮定します。StandardizeData を true に指定して入力データを標準化し、KernelScale を "auto" に設定して、関数でヒューリスティック手法を使用して適切なカーネルスケールパラメーターを選択できるようにします。

rng("default") % For reproducibility
[Mdl,~,s] = ocsvm(adultdata,StandardizeData=true,KernelScale="auto");

Mdl は、OneClassSVM オブジェクトです。名前と値の引数 ContaminationFraction を 0 を超える値として指定していない場合、ocsvm はすべての学習観測値を正常な観測値として扱います。この関数によりスコアのしきい値が最大のスコア値に設定されます。しきい値を表示します。

Mdl.ScoreThreshold

ans = 
0.0322

学習済みの 1 クラス SVM モデルを使用して、adulttest 内の異常を見つけます。モデルに学習させるときに StandardizeData=true を指定したため、関数 isanomaly は、Mu プロパティと Sigma プロパティに格納されている学習データの予測子の平均と標準偏差をそれぞれ使用して入力データを標準化します。

[tf_test,s_test] = isanomaly(Mdl,adulttest);

関数 isanomaly は、adulttest の異常インジケーター tf_test およびスコア s_test を返します。既定では、isanomaly はしきい値 (Mdl.ScoreThreshold) を超えるスコアをもつ観測値を異常として識別します。

異常スコア s および s_test のヒストグラムを作成します。異常スコアのしきい値に垂直線を作成します。

h1 = histogram(s,NumBins=50,Normalization="probability");
hold on
h2 = histogram(s_test,h1.BinEdges,Normalization="probability");
xline(Mdl.ScoreThreshold,"r-",join(["Threshold" Mdl.ScoreThreshold]))
h1.Parent.YScale = 'log';
h2.Parent.YScale = 'log';
legend("Training Data","Test Data",Location="north")
hold off

Figure contains an axes object. The axes object contains 3 objects of type histogram, constantline. These objects represent Training Data, Test Data.

テストデータ中にある異常の観測値のインデックスを表示します。

find(tf_test)

ans =

  0×1 empty double column vector

テストデータの異常スコア分布は学習データの異常スコア分布と類似しているため、isanomaly は既定のしきい値でテストデータ中にある異常を検出しません。名前と値のペア ScoreThreshold を使用して、異なるしきい値を指定できます。例については、異常スコアのしきい値の指定を参照してください。

異常スコアのしきい値の指定

ライブスクリプトを開く

isanomaly の名前と値の引数 ScoreThreshold を使用して、異常スコアのしきい値を指定します。

load census1994

census1994 には学習データセット adultdata およびテストデータセット adulttest が含まれています。

ocsvm は、欠損値のある観測値は使用しません。データセットの欠損値を削除すると、メモリ消費が減って学習が高速化します。

adultdata = rmmissing(adultdata);
adulttest = rmmissing(adulttest);

adultdata 用に 1 クラス SVM モデルに学習させます。StandardizeData を true に指定して入力データを標準化し、KernelScale を "auto" に設定して、関数でヒューリスティック手法を使用して適切なカーネルスケールパラメーターを選択できるようにします。

rng("default") % For reproducibility
[Mdl,~,scores] = ocsvm(adultdata, ...
    StandardizeData=true,KernelScale="auto");

スコア値のヒストグラムをプロットします。既定のスコアのしきい値の位置に垂直線を作成します。

h = histogram(scores,NumBins=50,Normalization="probability");
h.Parent.YScale = 'log';
xline(Mdl.ScoreThreshold,"r-",join(["Threshold" Mdl.ScoreThreshold]))

Figure contains an axes object. The axes object contains 2 objects of type histogram, constantline.

学習済みの 1 クラス SVM モデルを使用して、テストデータ内の異常を見つけます。モデルの学習時に取得された既定のしきい値とは異なるしきい値を使用します。

まず、関数isoutlierを使用してスコアのしきい値を調べます。

[~,~,U] = isoutlier(scores)

U = 
-0.5342

名前と値の引数 ScoreThreshold の値を U として指定します。Mdl に学習させるときに StandardizeData を true に指定したため、関数 isanomaly は、Mdl.Mu および Mdl.Sigma に保存されている平均と標準偏差をそれぞれ使用して新しい入力データを標準化します。

[tf_test,scores_test] = isanomaly(Mdl,adulttest,ScoreThreshold=U);
h = histogram(scores_test,NumBins=50,Normalization="probability");
h.Parent.YScale = 'log';
xline(U,"r-",join(["Threshold" U]))

Figure contains an axes object. The axes object contains 2 objects of type histogram, constantline.

入力引数

すべて折りたたむ

`Mdl` — 学習済みの 1 クラス SVM モデル
`OneClassSVM` オブジェクト

学習済みの 1 クラス SVM モデル。OneClassSVM オブジェクトとして指定します。

`Tbl` — 予測子データ
table

予測子データ。table として指定します。Tbl の各行は 1 つの観測値に、各列は 1 つの予測子変数に対応します。文字ベクトルの cell 配列ではない cell 配列と複数列の変数は使用できません。

table を使用して Mdl に学習させた場合、X ではなく Tbl を使用して予測子データを提供する必要があります。Tbl 内のすべての予測子変数は、変数名およびデータ型が学習データと同じでなければなりません。ただし、Tbl の列の順序が学習データの列の順序に対応する必要はありません。

データ型: table

`X` — 予測子データ
数値行列

予測子データ。数値行列として指定します。X の各行は 1 つの観測値に、各列は 1 つの予測子変数に対応します。

行列を使用して Mdl に学習させた場合、Tbl ではなく X を使用して予測子データを提供する必要があります。X の列を構成する変数の順序は、学習データと同じでなければなりません。

データ型: single | double

`scoreThreshold` — 異常スコアのしきい値
`Mdl.ScoreThreshold` (既定値) | 範囲 `(–Inf,Inf)` の数値スカラー

異常スコアのしきい値。範囲 (–Inf,Inf) の数値スカラーとして指定します。isanomaly は、スコアがこのしきい値を超える観測値を異常として識別します。

既定値は、Mdl の ScoreThreshold プロパティ値です。

例: ScoreThreshold=0.5

データ型: single | double

出力引数

すべて折りたたむ

`tf` — 異常インジケーター
logical 列ベクトル

異常インジケーター。logical 列ベクトルとして返されます。tf の要素は、Tbl または X の対応する行の観測値が異常であれば true、それ以外の場合は false になります。tf の長さは Tbl または X と同じです。

isanomaly は、scores がしきい値 (scoreThreshold の値) を超える観測値を異常として識別します。

`scores` — 異常スコア
範囲 (`–Inf`,`Inf`) の数値列ベクトル

異常スコア。範囲 (–Inf,Inf) の値の数値列ベクトルとして返されます。scores の長さは Tbl または X と同じで、scores の各要素に Tbl または X の対応する行の観測値に対する異常スコアが格納されます。振幅が大きな負のスコア値は正常な観測値を示し、大きい正の値は異常を示します。

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

saveLearnerForCoder、loadLearnerForCoder および codegen (MATLAB Coder) を使用して、関数 isanomaly のコードを生成します。saveLearnerForCoder を使用して、学習済みモデルを保存します。loadLearnerForCoder を使用して保存済みモデルを読み込んで関数 isanomaly を呼び出す、エントリポイント関数を定義します。次に、codegen を使用して、エントリポイント関数のコードを生成します。例については、異常検出用のコード生成を参照してください。
isanomaly の単精度の C/C++ コードを生成するには、loadLearnerForCoder 関数を呼び出すときに DataType="single" を指定します。
厳密な単精度計算はサポートされていません。生成されたコードでは、単精度入力で単精度出力が生成されます。ただし、関数内の変数は倍精度である可能性があります。

次の表は、isanomaly の引数に関する注意です。この表に含まれていない引数は、完全にサポートされています。

引数	注意と制限
`Tbl`	エントリポイント関数で次を行う必要があります。データを配列として受け入れる。データ入力の引数から table を作成し、その table 内で変数名を指定する。 table を `isanomaly` に渡す。この table のワークフローの例については、table のデータを分類するためのコードの生成を参照してください。コード生成における table の使用の詳細については、table のコード生成 (MATLAB Coder)およびコード生成における table の制限事項 (MATLAB Coder)を参照してください。 `Tbl` の行数、または観測値の数は可変サイズにすることができますが、`Tbl` の列数は固定でなければなりません。
`X`	`X` の行数、または観測値の数は可変サイズにすることができますが、`X` の列数は固定でなければなりません。
`ScoreThreshold`	名前と値の引数に含まれる名前はコンパイル時の定数でなければなりません。
`UseParallel`	この名前と値の引数はサポートされていませんが、この関数は OpenMP を介して並列計算をサポートします。 `isanomaly` に対して生成されるコードでは、`parfor` (MATLAB Coder) を使用して、サポートされる共有メモリマルチコアプラットフォームで並列実行されるループが作成されます。コンパイラが Open Multiprocessing (OpenMP) アプリケーションインターフェイスをサポートしない場合、または OpenMP ライブラリを無効にした場合、MATLAB^® Coder™ は `parfor` ループを `for` ループとして扱います。サポートされるコンパイラについては、サポートされるコンパイラを参照してください。OpenMP ライブラリを無効にするには、構成オブジェクトの `EnableOpenMP` プロパティを `false` に設定します。詳細については、`coder.CodeConfig` (MATLAB Coder) を参照してください。

詳細は、統計と機械学習の関数のコード生成の紹介を参照してください。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

次の少なくとも 1 つに該当する場合、isanomaly は GPU で実行されます。
- 入力引数 X が gpuArray オブジェクトである。
- 入力引数 Tbl に gpuArray 変数が含まれている。

詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2022b で導入

すべて展開する

R2025a: `gpuArray` 入力の指定 (Parallel Computing Toolbox が必要)

isanomaly は GPU 配列を完全にサポートします。

R2023a: 予測用の C/C++ コードの生成

関数 isanomaly に対する C/C++ コードを生成できます。

参考

トピック

教師なし異常検出

isanomaly

構文

説明

例

新規性の検出

異常スコアのしきい値の指定

入力引数

Mdl — 学習済みの 1 クラス SVM モデル OneClassSVM オブジェクト

Tbl — 予測子データ table

X — 予測子データ 数値行列

scoreThreshold — 異常スコアのしきい値 Mdl.ScoreThreshold (既定値) | 範囲 (–Inf,Inf) の数値スカラー

出力引数

tf — 異常インジケーター logical 列ベクトル

scores — 異常スコア 範囲 (–Inf,Inf) の数値列ベクトル

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

バージョン履歴

R2025a: gpuArray 入力の指定 (Parallel Computing Toolbox が必要)

R2023a: 予測用の C/C++ コードの生成

参考

トピック

`Mdl` — 学習済みの 1 クラス SVM モデル
`OneClassSVM` オブジェクト

`Tbl` — 予測子データ
table

`X` — 予測子データ
数値行列

`scoreThreshold` — 異常スコアのしきい値
`Mdl.ScoreThreshold` (既定値) | 範囲 `(–Inf,Inf)` の数値スカラー

`tf` — 異常インジケーター
logical 列ベクトル

`scores` — 異常スコア
範囲 (`–Inf`,`Inf`) の数値列ベクトル

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

R2025a: `gpuArray` 入力の指定 (Parallel Computing Toolbox が必要)