ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

クラスター分析の紹介

"クラスター分析" は、"セグメント分析" または "分類分析" とも呼ばれ、データのグループすなわち "クラスター" を作成します。クラスターは、同じクラスターのオブジェクトは非常に似ており、異なるクラスターのオブジェクトは非常に異なるというように、作成されます。類似点の尺度は、アプリケーションに依存します。

階層クラスタリング は、クラスター ツリーまたは "系統樹" を作成することによって、さまざまなスケールで、データをグループ化します。このツリーは、1 つのクラスターの集合ではなく、あるレベルのクラスターが次のレベルでクラスターとして加わる多重レベルの階層です。これにより、アプリケーションに最適なクラスタリングのレベルまたはスケールを決定することが可能になります。Statistics Toolbox™ の関数 clusterdata は、必要なすべての手順を実行します。関数 pdistlinkagecluster が組み込まれ、これらの関数はさらに詳細な分析で別々に使用されることもあります。関数 dendrogram は、クラスター ツリーをプロットします。

K 平均クラスタリング は、分割法です。関数 kmeans は、データを k 個の互いに排他的なクラスターに分割し、各観測値が割り当てられたクラスターのインデックスを返します。階層的なクラスタリングと異なり、k 平均クラスタリングは、非類似度の測定値のより大きな集合ではなく、実際の観測値で機能し、単一レベルのクラスターを作成します。そのため、大量のデータを処理する場合、k 平均クラスタリングの方が階層的なクラスタリングより適していることが多くあります。

混合ガウス モデル は、多変量正規密度の混合として、観測した変数の確率密度関数を表すことによって、クラスターを形成します。gmdistribution クラスの混合モデルは、データの近似に 期待値最大化 (EM) アルゴリズムを使用します。このアルゴリズムは、それぞれの観測値に関する各成分密度に事後確率を代入します。事後確率を最大にする成分を選択することにより、クラスターが代入されます。混合ガウス モデルを使用するクラスタリングは、ソフトなクラスタリング方式と見なされることがあります。各点の事後確率は、各データ点が各クラスターに属する確率がある程度はあることを示します。ガウス混合モデリングは、k 平均クラスタリングと同様に、局所的な最適条件に収束する反復アルゴリズムを使用します。各クラスターのサイズが同一でなく、クラスター間に相関があれば、ガウス混合モデリングの方が k 平均クラスタリングよりも適切である場合があります。

この情報は役に立ちましたか?