第 3 章

教師なし学習の適用


どんな時に教師なし学習を検討するべきか

教師なし学習は、データについて詳しく調べたいけれども、その結果何が分かるのか具体的な目標が定まっていない場合や、データに含まれている情報がはっきりしない場合に役立ちます。また、データの次元を減らす際にも有効です。

第 1 章でご覧いただいたように、教師なし学習手法のほとんどはクラスター分析の一形態です。

クラスター分析では、何らかの類似性の指標または共通する性質に基づいて、データのグループ分けを行います。同じクラスター内のオブジェクトは非常に類似したものとなり、異なるクラスターのオブジェクトは違いが明確となるようにクラスターを形成します。

クラスタリング アルゴリズムは、次の 2 つのグループに大きく分けられます。

  • ハードクラスタリング。データ点は 1 つのクラスターのみに属します。
  • ソフトクラスタリング。各データ点は複数のクラスターに属することができます。データがどのようにグループ化されるかがあらかじめ分かっている場合は、ソフト、ハード、どちらのクラスタリング手法も使用できます。
ガウス手法を用いたクラスターモデルのグラフ

混合ガウスモデルを使用した 2 つのクラスターへのデータの分離

データがどのようにグループ分けされるのかがまだ分からない場合は、次を行います。

  • 自己組織化特徴マップまたは階層クラスタリングを使用して、考えられるデータの構造を調べます。
  • クラスター評価を使用して、指定されたクラスタリング アルゴリズムにとって “最適な” グループの数を調べます。

一般的なハード クラスタリング アルゴリズム

一般的なソフト クラスタリング アルゴリズム