データの探索的解析
この例では、記述統計を使用してデータの分布を調べる方法を示します。
標本データの生成
無作為に生成した標本データが含まれているベクトルを作成します。
rng default % For reproducibility x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];
ヒストグラムのプロット
標本データのヒストグラムを正規密度の近似とともにプロットします。このようにすると、データに当てはめた正規分布と標本データを視覚的に比較できます。
histfit(x)
データの分布は歪んでおり、左の裾が長くなっているように見えます。正規分布は、この標本データに適した近似ではないようです。
正規確率プロットの取得
正規確率プロットを取得します。このプロットは、データに当てはめた正規分布と標本データを視覚的に比較するための別の方法を提供します。
probplot('normal',x)
この確率プロットも、データが正規性から逸脱していることを示しています。
箱ひげ図の作成
箱ひげ図を作成して統計量を可視化します。
boxplot(x)
箱ひげ図には、0.25、0.5 および 0.75 の分位数が示されます。長い下裾とプラス記号は、標本データの値に対称性が欠けていることを示しています。
記述統計の計算
データの平均値と中央値を計算します。
y = [mean(x),median(x)]
y = 1×2
5.3438 5.6872
平均値と中央値は近いように見えますが、平均値が中央値より小さい場合、通常はデータが歪んでいて左の裾が長くなっています。
データの歪度と尖度を計算します。
y = [skewness(x),kurtosis(x)]
y = 1×2
-1.0417 3.5895
歪度の値が負の場合、データは左に歪んでいることを意味します。尖度の値が 3 より大きいため、データの尖度は正規分布より大きくなります。
z スコアの計算
z スコアを計算し、3 より大きいか -3 より小さい値を探すことにより、外れ値の可能性がある値を識別します。
Z = zscore(x); find(abs(Z)>3);
z スコアに基づくと、3 番目の観測値と 35 番目の観測値は外れ値の可能性があります。
参考
boxplot
| histfit
| kurtosis
| mean
| median
| prctile
| quantile
| skewness