グループ化変数
グループ化変数とは
"グループ化変数" は観測のグループ化や分類のために使用するユーティリティ変数です。グループ化変数はグループ別にデータを要約または可視化する場合に便利です。グループ化変数は次のデータ型で使用できます。
数値ベクトル
logical ベクトル
文字配列
string 配列
文字ベクトルの cell 配列
categorical ベクトル
グループ化変数には、グループ化の対象となるテーブル、データセット配列または数値配列と同じ数の観測 (行) がなければなりません。グループ化変数の値が同じである観測は同じグループに属します。
たとえば、次の変数は同じグループを構成しています。各グループ化変数は 5 件の観測が 2 つのグループに分かれます。最初のグループには 1 番目と 4 番目の観測が属しています。残りの 3 件の観測は 2 番目のグループに属しています。
データ型 | グループ化変数 |
---|---|
数値ベクトル | [1 2 2 1 2] |
logical ベクトル | [0 1 1 0 1] |
string 配列 | ["Male","Female","Female","Male","Female"] |
文字ベクトルの cell 配列 | {'Male','Female','Female','Male','Female'} |
categorical ベクトル | Male Female Female Male Female |
ラベルが含まれているグループ化変数を使用して、わかりやすい名前を各グループに付けます。categorical ベクトルを使用すると、グループ化変数を効率的かつ柔軟に選択できます。
グループ定義
一般的には、グループ化変数の一意の値と同じ数だけグループの数が存在します。ただし、categorical ベクトルには、データでは表現されていないレベルを含めることができます。グループの内訳と順序は、グループ化変数のデータ型によって決まります。たとえば、G
というグループ化変数があるとします。
G
が数値ベクトルまたは logical ベクトルの場合、グループはG
のそれぞれの値に一致し、一意の値で並べ替えられた順序になります。G
が文字配列、string 配列、または文字ベクトルの cell 配列である場合、グループは要素が出現する順序でG
の各要素に対応します。G
が categorical ベクトルの場合、グループはG
の一意のカテゴリ レベルに一致し、categories
から返される順序になります。
grpstats
などの一部の関数では、グループ化変数の cell 配列 ({G1,G2,G3}
など) として指定された複数のグループ化変数を受け取ります。この場合、グループはグループ化変数の値の一意の組み合わせとして定義されます。順序は、最初のグループ化変数により決定し、次に 2 番目のグループ化変数により決定するというように決定されます。
グループ化変数による解析
次の表は、グループ化変数により実行できる一般的なタスクの一覧です。
グループ化タスク | グループ化変数を使用できる関数 |
---|---|
複数のグループのデータに対し箱ひげ図を並べて作成する。 | boxplot |
グループ別に色分けされたマーカーを使用した散布図を作成する。 | gscatter |
グループ別に色分けされたマーカーを使用した散布図行列を作成する。 | gplotmatrix |
グループ別の要約統計量を計算する。 | grpstats |
グループ平均の間の差を検定する。 | anovan |
グループ化変数からインデックス ベクトルを作成する。 | grp2idx |
グループ化変数の欠損値
有効なインジケーターが設定されていれば、グループ化変数に欠損値を設定できます。
グループ化変数のデータ型 | 欠損値インジケーター |
---|---|
数値ベクトル | NaN |
logical ベクトル | (欠損値不可) |
文字配列 | 空白行 |
string 配列 | <missing> または "" |
文字ベクトルの cell 配列 | '' |
categorical ベクトル | <undefined> |