グループ化変数

グループ化変数とは

"グループ化変数" は観測のグループ化や分類のために使用するユーティリティ変数です。グループ化変数はグループ別にデータを要約または可視化する場合に便利です。グループ化変数は次のデータ型で使用できます。

数値ベクトル
logical ベクトル
文字配列
string 配列
文字ベクトルの cell 配列
categorical ベクトル

グループ化変数には、グループ化の対象となるテーブル、データセット配列または数値配列と同じ数の観測 (行) がなければなりません。グループ化変数の値が同じである観測は同じグループに属します。

たとえば、次の変数は同じグループを構成しています。各グループ化変数は 5 件の観測が 2 つのグループに分かれます。最初のグループには 1 番目と 4 番目の観測が属しています。残りの 3 件の観測は 2 番目のグループに属しています。

データ型	グループ化変数
数値ベクトル	`[1 2 2 1 2]`
logical ベクトル	`[0 1 1 0 1]`
string 配列	`["Male","Female","Female","Male","Female"]`
文字ベクトルの cell 配列	`{'Male','Female','Female','Male','Female'}`
categorical ベクトル	`Male Female Female Male Female`

ラベルが含まれているグループ化変数を使用して、わかりやすい名前を各グループに付けます。categorical ベクトルを使用すると、グループ化変数を効率的かつ柔軟に選択できます。

グループ定義

一般的には、グループ化変数の一意の値と同じ数だけグループの数が存在します。ただし、categorical ベクトルには、データでは表現されていないレベルを含めることができます。グループの内訳と順序は、グループ化変数のデータ型によって決まります。たとえば、G というグループ化変数があるとします。

G が数値ベクトルまたは logical ベクトルの場合、グループは G のそれぞれの値に一致し、一意の値で並べ替えられた順序になります。
G が文字配列、string 配列、または文字ベクトルの cell 配列である場合、グループは要素が出現する順序で G の各要素に対応します。
G が categorical ベクトルの場合、グループは G の一意のカテゴリレベルに一致し、categories から返される順序になります。

grpstats などの一部の関数では、グループ化変数の cell 配列 ({G1,G2,G3} など) として指定された複数のグループ化変数を受け取ります。この場合、グループはグループ化変数の値の一意の組み合わせとして定義されます。順序は、最初のグループ化変数により決定し、次に 2 番目のグループ化変数により決定するというように決定されます。

グループ化変数による解析

次の表は、グループ化変数により実行できる一般的なタスクの一覧です。

グループ化タスク	グループ化変数を使用できる関数
複数のグループのデータに対し箱ひげ図を並べて作成する。	`boxplot`
グループ別に色分けされたマーカーを使用した散布図を作成する。	`gscatter`
グループ別に色分けされたマーカーを使用した散布図行列を作成する。	`gplotmatrix`
グループ別の要約統計量を計算する。	`grpstats`
グループ平均の間の差を検定する。	`anovan`
グループ化変数からインデックスベクトルを作成する。	`grp2idx`

グループ化変数の欠損値

有効なインジケーターが設定されていれば、グループ化変数に欠損値を設定できます。

グループ化変数のデータ型	欠損値インジケーター
数値ベクトル	`NaN`
logical ベクトル	(欠損値不可)
文字配列	空白行
string 配列	`<missing>` または `""`
文字ベクトルの cell 配列	`''`
categorical ベクトル	`<undefined>`

参考

categorical