教師なし学習

データ内の隠れたパターンや、内部構造を発見するための機械学習の手法

教師なし学習とは、学習データに人間が正解のラベルを与えずにデータセットから推論を行うタイプの機械学習のアルゴリズムです。データにラベルを付与する教師あり学習とは対照的なアルゴリズムといえます。

 最も一般的な教師なし学習の手法は、クラスター分析です。これは、データ内の隠れたパターンやグループ化を発見する探索的データ解析に使用されます。

MATLAB で利用可能な一般的なクラスタリング アルゴリズムには次のようなものがあります。クラスタリングは異常検知にもよく使用されるアルゴリズムです。

  • 階層クラスタリング: クラスターツリーを作成して複数のレベルをもつ階層的なクラスター群を構築します。
  • k-平均法 (k-means) および k-medoids クラスタリング: クラスターの重心までの距離に基づいてデータを k 個の異なるクラスターに分割します。
  • 混合ガウスモデル: 多変量正規密度コンポーネントの混合としてクラスターをモデル化します。
  • Density-based spatial clustering (DBSCAN): 密度の高い領域では近接したポイントをグループ化し、密度の低い領域での外れ値を追跡します。
  • 自己組織化マップ: データのトポロジーと分布を学習するニューラルネットワークを使用します。
  • スペクトルクラスタリング: 任意の非凸形状を扱えるグラフベースのクラスタリング

教師なし学習を応用した手法には、他にも半教師あり学習や、教師なし学習の特徴量ランク付けがあります。半教師あり学習は、教師あり学習におけるラベル付きデータの必要性を軽減します。データセット全体に適用されるクラスタリングは、ラベル付けされたデータとラベル付けされていないデータの間に類似性を確立し、ラベル情報はラベル付けされていなかった類似のクラスターのデータに伝播されます。

教師なし学習の特徴量ランク付けは、所定の予測対象や応答のない特徴量にスコアを割り当てます。MATLAB® およびStatistics and Machine Learning Toolbox™ は、ラプラシアンスコアを使用した特徴量のランク付けをサポートしています。

キーポイント

  • 教師なし学習は、一般的に教師なし学習の前に適用され、探索的なデータ分析で特徴量を特定したり、グループ化に基づいてクラスを確立したりします。
  • K平均法 (k-means) と階層クラスタリングは、現在もよく使われています。MATLAB で利用可能なものも含め、任意の非凸形状を扱えるクラスタリング手法は、DBSCAN、階層クラスタリング、スペクトルクラスタリングと限られています。
  • 教師なし学習 (クラスタリング) は、データの圧縮にも利用することができます。
  • 教師なし学習の特徴量ランク付けは、距離ベースのクラスタリングを大規模なデータセットに効率的に適用することができます。


参考: 教師あり学習, AdaBoost, データアナリティクス, 数学モデリング, 人工知能 (AI)