クラスター分析と異常検出
データの自然なグループ、パターン、異常を見つけるための教師なし学習法
"クラスター分析" はセグメント分析または分類分析とも呼ばれ、標本データをグループ、つまり "クラスター" に分割します。クラスターは、同じクラスター内のオブジェクトは似ており、異なるクラスターのオブジェクトは異なるように形成されます。Statistics and Machine Learning Toolbox™ には、いくつかのクラスタリング手法と、クラスターを作成するための類似度の尺度 ("距離計量" とも呼ばれます) が用意されています。さらに、"クラスター評価" では、各種の評価基準を使用してデータに最適なクラスター数を決定します。"クラスター可視化" オプションには、系統樹とシルエット プロットがあります。
"異常検出" は、標本データの想定されるパターンまたは分布から逸脱した観測値を識別する機械学習の一分野です。Statistics and Machine Learning Toolbox には、外れ値および新規性の検出のためのいくつかの手法 (教師なし異常検出を参照) とストリーミング データの異常を検出するための追加の方法 (Incremental Anomaly Detection Overviewを参照) が用意されています。
クラスター分析の基礎
カテゴリ
- 階層クラスタリング
クラスターの入れ子セットの生成
- k-means および kMedoid クラスタリング
平均距離または medoid 距離の最小化によるクラスター、およびマハラノビス距離の計算
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
DBSCAN アルゴリズムを使用してクラスターと外れ値を求める
- スペクトル クラスタリング
グラフベースのアルゴリズムを使用してクラスターを求める
- 混合ガウス モデル
期待値最大化アルゴリズムを使用した混合ガウス モデルに基づくクラスター
- 最近傍
網羅的探索または Kd 木探索を使用して最近傍を探索
- 隠れマルコフ モデル
データ生成用のマルコフ モデル
- 異常検出
外れ値および新規性の検出
- クラスターの可視化と評価
データのクラスターをプロットおよびクラスターの最適数を評価
- Python モデルの相互実行
予測のために Simulink で Python 機械学習モデルを読み込んで相互実行