Main Content

グループ化変数

グループ化変数とは

"グループ化変数" は観測のグループ化や分類のために使用するユーティリティ変数です。グループ化変数はグループ別にデータを要約または可視化する場合に便利です。グループ化変数は次のデータ型で使用できます。

  • 数値ベクトル

  • logical ベクトル

  • 文字配列

  • string 配列

  • 文字ベクトルの cell 配列

  • categorical ベクトル

グループ化変数には、グループ化の対象となるテーブル、データセット配列または数値配列と同じ数の観測 (行) がなければなりません。グループ化変数の値が同じである観測は同じグループに属します。

たとえば、次の変数は同じグループを構成しています。各グループ化変数は 5 件の観測が 2 つのグループに分かれます。最初のグループには 1 番目と 4 番目の観測が属しています。残りの 3 件の観測は 2 番目のグループに属しています。

データ型グループ化変数
数値ベクトル[1 2 2 1 2]
logical ベクトル[0 1 1 0 1]
string 配列["Male","Female","Female","Male","Female"]
文字ベクトルの cell 配列{'Male','Female','Female','Male','Female'}
categorical ベクトルMale Female Female Male Female

ラベルが含まれているグループ化変数を使用して、わかりやすい名前を各グループに付けます。categorical ベクトルを使用すると、グループ化変数を効率的かつ柔軟に選択できます。

グループ定義

一般的には、グループ化変数の一意の値と同じ数だけグループの数が存在します。ただし、categorical ベクトルには、データでは表現されていないレベルを含めることができます。グループの内訳と順序は、グループ化変数のデータ型によって決まります。たとえば、G というグループ化変数があるとします。

  • G が数値ベクトルまたは logical ベクトルの場合、グループは G のそれぞれの値に一致し、一意の値で並べ替えられた順序になります。

  • G が文字配列、string 配列、または文字ベクトルの cell 配列である場合、グループは要素が出現する順序で G の各要素に対応します。

  • G が categorical ベクトルの場合、グループは G の一意のカテゴリ レベルに一致し、categories から返される順序になります。

grpstats などの一部の関数では、グループ化変数の cell 配列 ({G1,G2,G3} など) として指定された複数のグループ化変数を受け取ります。この場合、グループはグループ化変数の値の一意の組み合わせとして定義されます。順序は、最初のグループ化変数により決定し、次に 2 番目のグループ化変数により決定するというように決定されます。

グループ化変数による解析

次の表は、グループ化変数により実行できる一般的なタスクの一覧です。

グループ化タスクグループ化変数を使用できる関数
複数のグループのデータに対し箱ひげ図を並べて作成する。boxplot
グループ別に色分けされたマーカーを使用した散布図を作成する。gscatter
グループ別に色分けされたマーカーを使用した散布図行列を作成する。gplotmatrix
グループ別の要約統計量を計算する。grpstats
グループ平均の間の差を検定する。anovan
グループ化変数からインデックス ベクトルを作成する。grp2idx

グループ化変数の欠損値

有効なインジケーターが設定されていれば、グループ化変数に欠損値を設定できます。

グループ化変数のデータ型欠損値インジケーター
数値ベクトルNaN
logical ベクトル(欠損値不可)
文字配列空白行
string 配列<missing> または ""
文字ベクトルの cell 配列''
categorical ベクトル<undefined>

参考