教師なし学習とは?
最も一般的な教師なし学習の手法は、クラスター分析です。これは、データ内の隠れたパターンやグループ化を発見する探索的データ解析に使用されます。
MATLAB で利用可能な一般的なクラスタリング アルゴリズムには次のようなものがあります。クラスタリングは異常検知にもよく使用されるアルゴリズムです。
- 階層クラスタリング: クラスターツリーを作成して複数のレベルをもつ階層的なクラスター群を構築します。
- k-平均法 (k-means) および k-medoids クラスタリング: クラスターの重心までの距離に基づいてデータを k 個の異なるクラスターに分割します。
- 混合ガウスモデル: 多変量正規密度コンポーネントの混合としてクラスターをモデル化します。
- Density-based spatial clustering (DBSCAN): 密度の高い領域では近接したポイントをグループ化し、密度の低い領域での外れ値を追跡します。
- 自己組織化マップ: データのトポロジーと分布を学習するニューラルネットワークを使用します。
- スペクトルクラスタリング: 任意の非凸形状を扱えるグラフベースのクラスタリング
教師なし学習を応用した手法には、他にも半教師あり学習や、教師なし学習の特徴量ランク付けがあります。半教師あり学習は、教師あり学習におけるラベル付きデータの必要性を軽減します。データセット全体に適用されるクラスタリングは、ラベル付けされたデータとラベル付けされていないデータの間に類似性を確立し、ラベル情報はラベル付けされていなかった類似のクラスターのデータに伝播されます。
教師なし学習の特徴量ランク付けは、所定の予測対象や応答のない特徴量にスコアを割り当てます。MATLAB® およびStatistics and Machine Learning Toolbox™ は、ラプラシアンスコアを使用した特徴量のランク付けをサポートしています。
キーポイント
- 教師なし学習は、一般的に教師なし学習の前に適用され、探索的なデータ分析で特徴量を特定したり、グループ化に基づいてクラスを確立したりします。
- K平均法 (k-means) と階層クラスタリングは、現在もよく使われています。MATLAB で利用可能なものも含め、任意の非凸形状を扱えるクラスタリング手法は、DBSCAN、階層クラスタリング、スペクトルクラスタリングと限られています。
- 教師なし学習 (クラスタリング) は、データの圧縮にも利用することができます。
- 教師なし学習の特徴量ランク付けは、距離ベースのクラスタリングを大規模なデータセットに効率的に適用することができます。
製品使用例および使い方
ソフトウェア リファレンス
参考: 教師あり学習, AdaBoost, データアナリティクス, 数学モデリング, 人工知能 (AI)