ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

クラスター分析の紹介

"クラスター分析" は、"セグメント分析" または "分類分析" とも呼ばれ、データのグループすなわち "クラスター" を作成します。クラスターは、同じクラスター内のオブジェクトは似ており、異なるクラスターのオブジェクトは異なるように形成されます。類似点の尺度は、アプリケーションに依存します。

階層クラスタリング は、クラスター ツリーまたは "系統樹" を作成することによって、さまざまなスケールで、データをグループ化します。このツリーは、1 つのクラスターの集合ではなく、あるレベルのクラスターが次のレベルでクラスターとして加わる多重レベルの階層です。これにより、アプリケーションに最適なクラスタリングのレベルまたはスケールを決定することが可能になります。Statistics and Machine Learning Toolbox™ の関数 clusterdata は、必要なすべての手順を実行します。関数 pdistlinkagecluster が組み込まれ、これらの関数はさらに詳細な分析で別々に使用されることもあります。関数 dendrogram は、クラスター ツリーをプロットします。

k-means クラスタリング は、分割法です。関数 kmeans は、データを k 個の互いに排他的なクラスターに分割し、各観測値が割り当てられたクラスターのインデックスを返します。階層的なクラスタリングと異なり、k-means クラスタリングは、非類似度の測定値のより大きな集合ではなく、実際の観測値で動作し、単一レベルのクラスターを作成します。この違いのため、大量のデータを処理する場合、k-means クラスタリングの方が階層的なクラスタリングより適していることが多くあります。

DBSCANは、任意の形状のクラスターおよびデータの外れ値 (ノイズ) を識別する、密度に基づくアルゴリズムです。関数 dbscan は、観測値間のペアワイズ距離または入力データ行列に対してクラスタリングを実行します。dbscan は、クラスターのインデックスと、コア点 (イプシロン近傍 (epsilon) 内に最小数 (minpts) 以上の近傍点がある点) である観測値を示すベクトルを返します。k-means クラスタリングと異なり、DBSCAN アルゴリズムでは、クラスターの個数を事前に知る必要はなく、クラスターが必ずしも球状になるとは限りません。DBSCAN は、どのクラスターにも属していない点を識別するので、密度に基づく外れ値検出にも役立ちます。

混合ガウス モデルによるクラスタリング は、多変量正規密度の混合として、観測した変数の確率密度関数を表すことによって、クラスターを形成します。gmdistribution クラスの混合モデルではデータの近似に期待値最大化 (EM) アルゴリズムを使用し、各観測値に関して事後確率を各成分密度に割り当てます。事後確率を最大にする成分を選択することにより、クラスターが割り当てられます。混合ガウス モデルを使用するクラスタリングは、ソフトなクラスタリング方式と見なされることがあります。各点の事後確率は、各データ点が各クラスターに属する確率がある程度はあることを示します。ガウス混合モデリングは、k-means クラスタリングと同様に、局所的な最適条件に収束する反復アルゴリズムを使用します。各クラスターのサイズが同一でなく、クラスター間に相関があれば、ガウス混合モデリングの方が k-means クラスタリングよりも適切である場合があります。

関連するトピック