crosstab

クロス集計

ページ内をすべて折りたたむ

構文

tbl = crosstab(x1,x2)

tbl = crosstab(x1,...,xn)

[tbl,chi2,p] = crosstab(___)

[tbl,chi2,p,labels] = crosstab(___)

説明

例

tbl = crosstab(x1,x2) は同じ長さの 2 つのベクトル x1 と x2 のクロス集計 tbl を返します。

例

tbl = crosstab(x1,...,xn) は複数の入力ベクトル x1、x2、...、xn のデータの多次元クロス集計 tbl を返します。

例

[tbl,chi2,p] = crosstab(___) は、カイ二乗検定のカイ二乗統計量と p 値も返します。この検定の帰無仮説は、tbl のどのエントリの比率も各次元における比率の積であることです。この構文では、前の構文における任意の入力引数の組み合わせを指定できます。

例

[tbl,chi2,p,labels] = crosstab(___) は、各入力引数 x1 ... xn に対する 1 列のラベルが含まれている cell 配列 labels も返します。

例

すべて折りたたむ

2 つのデータベクトルのクロス集計

ライブスクリプトを開く

異なる 3 つの値と 4 つの値を含む 2 つの標本データベクトルを作成します。

x = [1 1 2 3 1];
y = [1 2 5 3 1];

x と y をクロス集計します。

table = crosstab(x,y)

table = 3×4

     2     1     0     0
     0     0     0     1
     0     0     1     0

table の行は x の 3 つの異なる値に対応し、列は y の 4 つの異なる値に対応しています。

独立したデータベクトルのクロス集計

ライブスクリプトを開く

2 つの独立したベクトル x1 および x2 を生成します。各ベクトルは 1:3 の範囲で離散一様分布する 50 個の乱数を含んでいます。

rng default;  % for reproducibility
x1 = unidrnd(3,50,1);
x2 = unidrnd(3,50,1);

x1 と x2 をクロス集計します。

[table,chi2,p] = crosstab(x1,x2)

table = 3×3

     1     6     7
     5     5     2
    11     7     6

chi2 = 7.5449

p = 0.1097

返される p 値は 0.1097 です。これは 5% の有意水準において、table が各次元で独立しているという帰無仮説を、crosstab が棄却できないことを示しています。

グループ化されたデータのクロス集計

ライブスクリプトを開く

標本データを読み込みます。1970 ～ 1982 年の間の大型自動車に関する測定値が含まれています。

load carbig

モデルの年度 (when) と生産国 (org) に基づいて 4 気筒の自動車 (cyl4) のデータをクロス集計します。

[table,chi2,p,labels] = crosstab(cyl4,when,org);

labels を使用して、データの期間の後半に米国で製造された 4 気筒の自動車の台数に対する table のインデックスの位置を特定します。

labels

labels=3×3 cell array
    {'Other'   }    {'Early'}    {'USA'   }
    {'Four'    }    {'Mid'  }    {'Europe'}
    {0x0 double}    {'Late' }    {'Japan' }

labels の最初の列は cyl4 のデータに対応し、table の行 2 に4 気筒の自動車のデータが格納されていることを示しています。labels の 2 番目の列は when のデータに対応し、期間の後半に製造された自動車のデータは、table の列 3 に格納されていることを示しています。labels の 3 番目の列は org のデータに対応し、米国で製造された自動車のデータは table の 3 番目の次元の位置 1 に格納されていることを示しています。

つまり、table(2,3,1) には、期間の後半に米国で製造された 4 気筒の自動車の台数が格納されていることになります。

table(2,3,1)

ans = 38

このデータは、期間の後半に米国で製造された 4 気筒の自動車が 38 台であることを示しています。

分割表の生成と可視化

ライブスクリプトを開く

データから分割表を作成し、ヒートマップチャートでテーブルを可視化します。

病院データを読み込みます。

load hospital

hospital データセット配列には病院患者 100 人の、姓、性別、年齢、体重、喫煙状況、収縮期および拡張期の血圧測定値を含めたデータがあります。

データセット配列を MATLAB® テーブルに変換します。

Tbl = dataset2table(hospital);

喫煙者と非喫煙者を性別でグループ化した 2 行 2 列の分割表を作成し、喫煙状況が性別と独立しているかどうかを判定します。

[conttbl,chi2,p,labels] = crosstab(Tbl.Sex,Tbl.Smoker)

conttbl = 2×2

    40    13
    26    21

chi2 = 4.5083

p = 0.0337

labels = 2x2 cell
    {'Female'}    {'0'}
    {'Male'  }    {'1'}

生成される分割表 conttbl の行は患者の性別に対応し、行 1 には女性、行 2 には男性のデータが含まれています。列は患者の喫煙状況に対応し、列 1 には非喫煙者、列 2 には喫煙者のデータが含まれています。返された結果 chi2 = 4.5083 は独立性に対するピアソンのカイ二乗検定のカイ二乗検定統計量の値です。検定の $p$ 値は p = 0.0337 です。これは 5% の有意水準において、性別と喫煙状況が独立しているという帰無仮説を棄却できることを示しています。

ヒートマップで分割表を可視化します。 $x$ 軸上に喫煙状況をプロットし、 $y$ 軸上に性別をプロットします。

heatmap(Tbl,'Smoker','Sex')

Figure contains an object of type heatmap. The chart of type heatmap has title Count of Sex vs. Smoker.

入力引数

すべて折りたたむ

`x1` — 入力ベクトル
グループ化変数のベクトル

入力ベクトル。グループ化変数のベクトルとして指定します。x1、x2、...、xn を含むすべての入力ベクトルは同じ長さでなければなりません。

`x2` — 入力ベクトル
グループ化変数のベクトル

入力ベクトル。グループ化変数のベクトルとして指定します。x1、x2、...、xn を含むすべての入力ベクトルは同じ長さでなければなりません。

`x1,...,xn` — 入力ベクトル
グループ化変数のベクトル

入力ベクトル。グループ化変数のベクトルとして指定します。この構文を使用して 3 つ以上の入力ベクトルを選択する場合、crosstab は多次元クロス集計表を生成します。x1、x2、...、xn を含むすべての入力ベクトルは同じ長さでなければなりません。

出力引数

すべて折りたたむ

`tbl` — クロス集計表
整数値行列

クロス集計表。整数値行列として返されます。

2 つの入力ベクトル x1 と x2 を指定する場合、tbl は m 行 n 列の行列です。ここで m は x1 内の異なる値の数で、n は x2 内の異なる値の数です。

3 つ以上の入力ベクトルを指定する場合、tbl(i,j,...,n) はインデックス数です。ここで grp2idx(x1) は i、grp2idx(x2) は j、grp2idx(x3) は k、以降も同様です。

`chi2` — カイ二乗統計量
正のスカラー値

カイ二乗統計量。正のスカラー値として返されます。帰無仮説は、「tbl のどのエントリでもその比率は各次元での比率の積である」です。

`p` — p 値
`[0,1]` の範囲のスカラー値

カイ二乗検定統計量の p 値。[0,1] の範囲のスカラー値として返されます。crosstab は tbl が各次元で独立しているかどうかを検定します。

`labels` — データラベル
cell 配列

データラベル。cell 配列として返されます。多次元 tbl では、1 番目の列のエントリは tbl の各行のラベル、2 番目の列のエントリは各列のラベルとなり、以降も同様です。

アルゴリズム

crosstab は grp2idx を使用して正の整数を異なる値に割り当てます。tbl(i,j) はインデックス数です。ここで grp2idx(x1) は i で、grp2idx(x2) は j です。grp2idx(x1) と grp2idx(x2) の数値順序が tbl の行と列の順序を決めます。
この場合、tbl(i,j,...,n) の返された値はインデックス数です。ここで、grp2idx(x1) は i、grp2idx(x2) は j、grp2idx(x3) は k、以降も同様です。
crosstab は、大きな標本サイズに対して漸近的に有効な式を使用して、カイ二乗検定統計量の p 値を計算します。小さい標本、または極めて不均等な周辺分布をもつ標本の場合、近似の精度は低くなります。標本に変数が 2 つしか含まれておらず、各変数に 2 つの水準がある場合、代わりに fishertest を使用できます。この関数は、フィッシャーの正確確率検定を実行するもので、大きな標本分布の仮定に依存しません。

拡張機能

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

この関数は、メモリ超過のデータに対し tall 配列をサポートしますが、以下の制限があります。

4 番目の出力 labels は、未評価の M 個の tall cell 配列が格納されている cell 配列として返されます。M は、入力されたグループ化変数の個数です。各未評価 tall cell 配列 labels{j} には、1 つのグループ化変数のラベルが格納されます。

詳細は、メモリに収まらないデータの tall 配列を参照してください。

スレッドベースの環境
MATLAB® の `backgroundPool` を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の `ThreadPool` を使用してコードを高速化します。

この関数は、スレッドベースの環境を完全にサポートします。詳細については、スレッドベースの環境での MATLAB 関数の実行を参照してください。

バージョン履歴

R2006a より前に導入

参考

grp2idx | tabulate | fishertest | heatmap

トピック

グループ化変数

crosstab

構文

説明

例

2 つのデータ ベクトルのクロス集計

独立したデータ ベクトルのクロス集計

グループ化されたデータのクロス集計

分割表の生成と可視化

入力引数

x1 — 入力ベクトル グループ化変数のベクトル

x2 — 入力ベクトル グループ化変数のベクトル

x1,...,xn — 入力ベクトル グループ化変数のベクトル

出力引数

tbl — クロス集計表 整数値行列

chi2 — カイ二乗統計量 正のスカラー値

p — p 値 [0,1] の範囲のスカラー値

labels — データ ラベル cell 配列

アルゴリズム

拡張機能

tall 配列 メモリの許容量を超えるような多数の行を含む配列を計算します。

スレッドベースの環境 MATLAB® の backgroundPool を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の ThreadPool を使用してコードを高速化します。

バージョン履歴

参考

トピック

2 つのデータベクトルのクロス集計

独立したデータベクトルのクロス集計

`x1` — 入力ベクトル
グループ化変数のベクトル

`x2` — 入力ベクトル
グループ化変数のベクトル

`x1,...,xn` — 入力ベクトル
グループ化変数のベクトル

`tbl` — クロス集計表
整数値行列

`chi2` — カイ二乗統計量
正のスカラー値

`p` — p 値
`[0,1]` の範囲のスカラー値

`labels` — データラベル
cell 配列

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

スレッドベースの環境
MATLAB® の `backgroundPool` を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の `ThreadPool` を使用してコードを高速化します。