CalinskiHarabaszEvaluation

Calinski-Harabasz 基準クラスタリング評価オブジェクト

説明

CalinskiHarabaszEvaluation は、最適なクラスター数 (OptimalK) を評価するために使用される標本データ (X)、クラスタリングデータ (OptimalY)、および Calinski-Harabasz 基準値 (CriterionValues) で構成されるオブジェクトです。Calinski-Harabasz 基準は分散比基準 (VRC) と呼ばれる場合もあります。適切に定義されたクラスターでは、クラスター間の分散は大きくなり、クラスター内の分散は小さくなります。最適なクラスターの数は、最も大きな Calinski-Harabasz インデックス値をもつ解に対応します。詳細は、Calinski-Harabasz 基準を参照してください。

作成

Calinski-Harabasz 基準クラスタリング評価オブジェクトを作成するには、関数 evalclusters を使用し、基準を "CalinskiHarabasz" と指定します。

その後、compact を使用して、コンパクトなバージョンの Calinski-Harabasz 基準クラスタリング評価オブジェクトを作成できます。この関数は、プロパティ X、OptimalY、および Missing の内容を削除します。

プロパティ

すべて展開する

クラスタリング評価のプロパティ

`ClusteringFunction` — クラスタリングアルゴリズム
読み取り専用: `'kmeans'` | `'linkage'` | `'gmdistribution'` | 関数ハンドル | `[]`

このプロパティは読み取り専用です。

標本データのクラスタリングに使用されるクラスタリングアルゴリズム。'kmeans'、'linkage'、'gmdistribution'、または関数ハンドルとして返されます。クラスタリング評価オブジェクトを作成する際に evalclusters の入力引数としてクラスタリングの解を指定した場合、ClusteringFunction は空になります。

値	説明
`'kmeans'`	`X` のデータを `kmeans` クラスタリングアルゴリズムを使用してクラスタリングします。`EmptyAction` は `"singleton"`、`Replicates` は `5` に設定されます。
`'linkage'`	`X` のデータを `clusterdata` 凝集型クラスタリングアルゴリズムを使用してクラスタリングします。`Linkage` は `"ward"` に設定されます。
`'gmdistribution'`	`X` のデータを `gmdistribution` 混合ガウス分布アルゴリズムを使用してクラスタリングします。`SharedCov` は `true`、`Replicates` は `5` に設定されます。

データ型: double | char | function_handle

`CriterionName` — 基準の名前
読み取り専用: `'CalinskiHarabasz'`

このプロパティは読み取り専用です。

クラスタリングの評価に使用される基準の名前。'CalinskiHarabasz' として返されます。

`CriterionValues` — 基準値
読み取り専用: 数値ベクトル

このプロパティは読み取り専用です。

基準値。数値ベクトルとして返されます。各値が InspectedK の推奨されるクラスター数に対応します。

データ型: double

`InspectedK` — 推奨されるクラスター数のリスト
読み取り専用: 正の整数ベクトル

このプロパティは読み取り専用です。

基準値の計算の対象となる推奨されるクラスター数のリスト。正の整数ベクトルとして返されます。

データ型: double

`OptimalK` — 最適なクラスター数
読み取り専用: 正の整数スカラー

このプロパティは読み取り専用です。

最適なクラスター数。正の整数スカラーとして返されます。

データ型: double

`OptimalY` — 最適なクラスタリングの解
読み取り専用: 正の整数列ベクトル | `[]`

このプロパティは読み取り専用です。

OptimalK に対応する最適なクラスタリングの解。正の整数列ベクトルとして返されます。OptimalY の各行は、X の対応する観測値 (または行) のクラスターインデックスを表します。クラスタリング評価オブジェクトを作成する際に evalclusters の入力引数としてクラスタリングの解を指定した場合、またはコンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、OptimalY は空になります。

データ型: double

標本データのプロパティ

`Missing` — 除外データ
読み取り専用: logical 列ベクトル | `[]`

このプロパティは読み取り専用です。

除外データ。logical 列ベクトルとして返されます。Missing の要素が true の場合、データ行列 X の対応する観測値 (または行) がクラスタリングの解で使用されません。コンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、Missing は空になります。

データ型: double | logical

`NumObservations` — 観測値の数
読み取り専用: 正の整数スカラー

このプロパティは読み取り専用です。

データ行列 X の観測値の数。欠損値 (NaN) がある観測値は無視されます。正の整数スカラーとして返されます。

データ型: double

`X` — クラスタリングに使用されるデータ
読み取り専用: 数値行列 | `[]`

このプロパティは読み取り専用です。

クラスタリングに使用されるデータ。数値行列として返されます。行は観測値に対応し、列は変数に対応します。コンパクトなクラスタリング評価オブジェクトの場合 (compact を参照)、X は空になります。

データ型: single | double

オブジェクト関数

`addK`	追加クラスター数の評価
`compact`	コンパクトクラスタリング評価オブジェクト
`plot`	クラスタリング評価オブジェクト基準値のプロット

例

すべて折りたたむ

Calinski-Harabasz 基準によるクラスタリングの解の評価

ライブスクリプトを開く

Calinski-Harabasz クラスタリング評価基準を使用して最適なクラスター数を評価します。

fisheriris データセットを読み込みます。このデータには、3 種のアヤメの花のがく片と花弁からの長さと幅の測定値が含まれています。

load fisheriris

Calinski-Harabasz 基準を使用して最適なクラスター数を評価します。データのクラスタリングには kmeans を使用します。

rng("default") % For reproducibility
evaluation = evalclusters(meas,"kmeans","CalinskiHarabasz","KList",1:6)

evaluation = 
  CalinskiHarabaszEvaluation with properties:

    NumObservations: 150
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [NaN 513.9245 561.6278 530.4871 456.1279 469.5068]
           OptimalK: 3


  Properties, Methods

OptimalK の値は、Calinski-Harabasz 基準に基づく最適なクラスター数が 3 つであることを示しています。

テストした各クラスター数について、Calinski-Harabasz 基準値をプロットします。

plot(evaluation)

Figure contains an axes object. The axes object with xlabel Number of Clusters, ylabel CalinskiHarabasz Values contains 2 objects of type line.

このプロットは Calinski-Harabasz の最大値が 3 個のクラスターのときに発生することを示しており、最適なクラスター数が 3 であることを示唆しています。

グループ化した散布図を作成して花弁の長さと幅の関係を調べます。データは推奨されるクラスターごとにグループ化します。

PetalLength = meas(:,3);
PetalWidth = meas(:,4);
clusters = evaluation.OptimalY;
gscatter(PetalLength,PetalWidth,clusters,[],"xod");

Figure contains an axes object. The axes object with xlabel PetalLength, ylabel PetalWidth contains 3 objects of type line. One or more of the lines displays its values using only markers These objects represent 1, 2, 3.

このプロットは、左下のクラスター 3 が他の 2 つのクラスターから完全に分離されていることを示しています。クラスター 3 には花弁の幅と長さが最も小さい花が含まれています。クラスター 1 は右上にあり、花弁の幅と長さが最も大きい花が含まれています。クラスター 2 はプロットの中央近くにあり、これら 2 つの極値の間にある測定値の花が含まれています。

詳細

すべて展開する

Calinski-Harabasz 基準

Calinski-Harabasz 基準は分散比基準 (VRC) と呼ばれる場合もあります。Calinski-Harabasz インデックスは次のように定義されます。

$V R C_{k} = \frac{S S_{B}}{S S_{W}} \times \frac{(N - k)}{(k - 1)},$

ここで、SS_B は全体的なクラスター間分散、SS_W は全体的なクラスター内分散、k はクラスターの個数、N は観測値の個数です。

全体的なクラスター間分散 SS_B は次のように定義されます。

$S S_{B} = \sum_{i = 1}^{k} n_{i} {‖ m_{i} - m ‖}^{2},$

ここで、k はクラスターの個数、n_i はクラスター i 内の観測値の個数、m_i はクラスター i の重心、m は標本データ全体の平均、 $‖ m_{i} - m ‖$ は 2 つのベクトルの間の "L²" ノルム (ユークリッド距離) です。

全体的なクラスター内分散 SS_W は次のように定義されます。

$S S_{W} = \sum_{i = 1}^{k} {\sum_{x \in c_{i}} ‖ x - m_{i} ‖}^{2},$

ここで、k はクラスターの個数、x はデータ点、c_i は i 番目のクラスター、m_i はクラスター i の重心、 $‖ x - m_{i} ‖$ は 2 つのベクトルの間の "L²" ノルム (ユークリッド距離) です。

適切に定義されたクラスターでは、クラスター間の分散 (SS_B) は大きくなり、クラスター内の分散 (SS_W) は小さくなります。VRC_k 比が大きくなるほどデータ分割は優れています。最適なクラスター数を決定するには、k に関して VRC_k を最大化します。最適なクラスターの数は、最も大きな Calinski-Harabasz インデックス値をもつ解に対応します。

Calinski-Harabasz 基準は、二乗ユークリッド距離を使用する k-means クラスタリングソリューションに最適です。

参照

[1] Calinski, T., and J. Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics. Vol. 3, No. 1, 1974, pp. 1–27.

バージョン履歴

R2013b で導入

参考

evalclusters | DaviesBouldinEvaluation | GapEvaluation | SilhouetteEvaluation

CalinskiHarabaszEvaluation

説明

作成

プロパティ

クラスタリング評価のプロパティ

ClusteringFunction — クラスタリング アルゴリズム 読み取り専用: 'kmeans' | 'linkage' | 'gmdistribution' | 関数ハンドル | []

CriterionName — 基準の名前 読み取り専用: 'CalinskiHarabasz'

CriterionValues — 基準値 読み取り専用: 数値ベクトル

InspectedK — 推奨されるクラスター数のリスト 読み取り専用: 正の整数ベクトル

OptimalK — 最適なクラスター数 読み取り専用: 正の整数スカラー

OptimalY — 最適なクラスタリングの解 読み取り専用: 正の整数列ベクトル | []

標本データのプロパティ

Missing — 除外データ 読み取り専用: logical 列ベクトル | []

NumObservations — 観測値の数 読み取り専用: 正の整数スカラー

X — クラスタリングに使用されるデータ 読み取り専用: 数値行列 | []

オブジェクト関数

例

Calinski-Harabasz 基準によるクラスタリングの解の評価

詳細

Calinski-Harabasz 基準

参照

バージョン履歴

参考

`ClusteringFunction` — クラスタリングアルゴリズム
読み取り専用: `'kmeans'` | `'linkage'` | `'gmdistribution'` | 関数ハンドル | `[]`

`CriterionName` — 基準の名前
読み取り専用: `'CalinskiHarabasz'`

`CriterionValues` — 基準値
読み取り専用: 数値ベクトル

`InspectedK` — 推奨されるクラスター数のリスト
読み取り専用: 正の整数ベクトル

`OptimalK` — 最適なクラスター数
読み取り専用: 正の整数スカラー

`OptimalY` — 最適なクラスタリングの解
読み取り専用: 正の整数列ベクトル | `[]`

`Missing` — 除外データ
読み取り専用: logical 列ベクトル | `[]`

`NumObservations` — 観測値の数
読み取り専用: 正の整数スカラー

`X` — クラスタリングに使用されるデータ
読み取り専用: 数値行列 | `[]`