Main Content

CalinskiHarabaszEvaluation

Calinski-Harabasz 基準クラスタリング評価オブジェクト

    説明

    CalinskiHarabaszEvaluation は、最適なクラスター数 (OptimalK) を評価するために使用される標本データ (X)、クラスタリング データ (OptimalY)、および Calinski-Harabasz 基準値 (CriterionValues) で構成されるオブジェクトです。Calinski-Harabasz 基準は分散比基準 (VRC) と呼ばれる場合もあります。適切に定義されたクラスターでは、クラスター間の分散は大きくなり、クラスター内の分散は小さくなります。最適なクラスターの数は、最も大きな Calinski-Harabasz インデックス値をもつ解に対応します。詳細は、Calinski-Harabasz 基準を参照してください。

    作成

    Calinski-Harabasz 基準クラスタリング評価オブジェクトを作成するには、関数 evalclusters を使用し、基準を "CalinskiHarabasz" と指定します。

    その後、compact を使用して、コンパクトなバージョンの Calinski-Harabasz 基準クラスタリング評価オブジェクトを作成できます。この関数は、プロパティ XOptimalY、および Missing の内容を削除します。

    プロパティ

    すべて展開する

    クラスタリング評価のプロパティ

    この プロパティ は読み取り専用です。

    標本データのクラスタリングに使用されるクラスタリング アルゴリズム。'kmeans''linkage''gmdistribution'、または関数ハンドルとして返されます。クラスタリング評価オブジェクトを作成する際に evalclusters の入力引数としてクラスタリングの解を指定した場合、ClusteringFunction は空になります。

    説明
    'kmeans'X のデータを kmeans クラスタリング アルゴリズムを使用してクラスタリングします。EmptyAction"singleton"Replicates5 に設定されます。
    'linkage'X のデータを clusterdata 凝集型クラスタリング アルゴリズムを使用してクラスタリングします。Linkage"ward" に設定されます。
    'gmdistribution'X のデータを gmdistribution 混合ガウス分布アルゴリズムを使用してクラスタリングします。SharedCovtrueReplicates5 に設定されます。

    データ型: double | char | function_handle

    この プロパティ は読み取り専用です。

    クラスタリングの評価に使用される基準の名前。'CalinskiHarabasz' として返されます。

    この プロパティ は読み取り専用です。

    基準値。数値ベクトルとして返されます。各値が InspectedK の推奨されるクラスター数に対応します。

    データ型: double

    この プロパティ は読み取り専用です。

    基準値の計算の対象となる推奨されるクラスター数のリスト。正の整数ベクトルとして返されます。

    データ型: double

    この プロパティ は読み取り専用です。

    最適なクラスター数。正の整数スカラーとして返されます。

    データ型: double

    この プロパティ は読み取り専用です。

    OptimalK に対応する最適なクラスタリングの解。正の整数列ベクトルとして返されます。OptimalY の各行は、X の対応する観測値 (または行) のクラスター インデックスを表します。クラスタリング評価オブジェクトを作成する際に evalclusters の入力引数としてクラスタリングの解を指定した場合、またはコンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、OptimalY は空になります。

    データ型: double

    標本データのプロパティ

    この プロパティ は読み取り専用です。

    除外データ。logical 列ベクトルとして返されます。Missing の要素が true の場合、データ行列 X の対応する観測値 (または行) がクラスタリングの解で使用されません。コンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、Missing は空になります。

    データ型: double | logical

    この プロパティ は読み取り専用です。

    データ行列 X の観測値の数。欠損値 (NaN) がある観測値は無視されます。正の整数スカラーとして返されます。

    データ型: double

    この プロパティ は読み取り専用です。

    クラスタリングに使用されるデータ。数値行列として返されます。行は観測値に対応し、列は変数に対応します。コンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、X は空になります。

    データ型: single | double

    オブジェクト関数

    addK追加クラスター数の評価
    compactコンパクト クラスタリング評価オブジェクト
    plot クラスタリング評価オブジェクト基準値のプロット

    すべて折りたたむ

    Calinski-Harabasz クラスタリング評価基準を使用して最適なクラスター数を評価します。

    fisheriris データ セットを読み込みます。このデータには、3 種のアヤメの花のがく片と花弁からの長さと幅の測定値が含まれています。

    load fisheriris

    Calinski-Harabasz 基準を使用して最適なクラスター数を評価します。データのクラスタリングには kmeans を使用します。

    rng("default") % For reproducibility
    evaluation = evalclusters(meas,"kmeans","CalinskiHarabasz","KList",1:6)
    evaluation = 
      CalinskiHarabaszEvaluation with properties:
    
        NumObservations: 150
             InspectedK: [1 2 3 4 5 6]
        CriterionValues: [NaN 513.9245 561.6278 530.4871 456.1279 469.5068]
               OptimalK: 3
    
    
    

    OptimalK の値は、Calinski-Harabasz 基準に基づく最適なクラスター数が 3 つであることを示しています。

    テストした各クラスター数について、Calinski-Harabasz 基準値をプロットします。

    plot(evaluation)

    Figure contains an axes object. The axes object with xlabel Number of Clusters, ylabel CalinskiHarabasz Values contains 2 objects of type line.

    このプロットは Calinski-Harabasz の最大値が 3 個のクラスターのときに発生することを示しており、最適なクラスター数が 3 であることを示唆しています。

    グループ化した散布図を作成して花弁の長さと幅の関係を調べます。データは推奨されるクラスターごとにグループ化します。

    PetalLength = meas(:,3);
    PetalWidth = meas(:,4);
    clusters = evaluation.OptimalY;
    gscatter(PetalLength,PetalWidth,clusters,[],"xod");

    Figure contains an axes object. The axes object with xlabel PetalLength, ylabel PetalWidth contains 3 objects of type line. One or more of the lines displays its values using only markers These objects represent 1, 2, 3.

    このプロットは、左下のクラスター 3 が他の 2 つのクラスターから完全に分離されていることを示しています。クラスター 3 には花弁の幅と長さが最も小さい花が含まれています。クラスター 1 は右上にあり、花弁の幅と長さが最も大きい花が含まれています。クラスター 2 はプロットの中央近くにあり、これら 2 つの極値の間にある測定値の花が含まれています。

    詳細

    すべて展開する

    参照

    [1] Calinski, T., and J. Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics. Vol. 3, No. 1, 1974, pp. 1–27.

    バージョン履歴

    R2013b で導入