第 3 章
教師なし学習の適用
どんな時に教師なし学習を検討するべきか
教師なし学習は、データについて詳しく調べたいけれども、その結果何が分かるのか具体的な目標が定まっていない場合や、データに含まれている情報がはっきりしない場合に役立ちます。また、データの次元を減らす際にも有効です。
第 1 章でご覧いただいたように、教師なし学習手法のほとんどはクラスター分析の一形態です。
クラスター分析では、何らかの類似性の指標または共通する性質に基づいて、データのグループ分けを行います。同じクラスター内のオブジェクトは非常に類似したものとなり、異なるクラスターのオブジェクトは違いが明確となるようにクラスターを形成します。
クラスタリング アルゴリズムは、次の 2 つのグループに大きく分けられます。
- ハードクラスタリング。データ点は 1 つのクラスターのみに属します。
- ソフトクラスタリング。各データ点は複数のクラスターに属することができます。データがどのようにグループ化されるかがあらかじめ分かっている場合は、ソフト、ハード、どちらのクラスタリング手法も使用できます。
データがどのようにグループ分けされるのかがまだ分からない場合は、次を行います。
- 自己組織化特徴マップまたは階層クラスタリングを使用して、考えられるデータの構造を調べます。
- クラスター評価を使用して、指定されたクラスタリング アルゴリズムにとって “最適な” グループの数を調べます。