Main Content

データの探索的解析

この例では、記述統計を使用してデータの分布を調べる方法を示します。

標本データの生成

無作為に生成した標本データが含まれているベクトルを作成します。

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

ヒストグラムのプロット

標本データのヒストグラムを正規密度の近似とともにプロットします。このようにすると、データに当てはめた正規分布と標本データを視覚的に比較できます。

histfit(x)

Figure contains an axes object. The axes object contains 2 objects of type bar, line.

データの分布は歪んでおり、左の裾が長くなっているように見えます。正規分布は、この標本データに適した近似ではないようです。

正規確率プロットの取得

正規確率プロットを取得します。このプロットは、データに当てはめた正規分布と標本データを視覚的に比較するための別の方法を提供します。

probplot('normal',x)

Figure contains an axes object. The axes object with title Probability plot for Normal distribution, xlabel Data, ylabel Probability contains 2 objects of type functionline, line. One or more of the lines displays its values using only markers

この確率プロットも、データが正規性から逸脱していることを示しています。

箱ひげ図の作成

箱ひげ図を作成して統計量を可視化します。

boxplot(x)

Figure contains an axes object. The axes object contains 7 objects of type line. One or more of the lines displays its values using only markers

箱ひげ図には、0.25、0.5 および 0.75 の分位数が示されます。長い下裾とプラス記号は、標本データの値に対称性が欠けていることを示しています。

記述統計の計算

データの平均値と中央値を計算します。

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

平均値と中央値は近いように見えますが、平均値が中央値より小さい場合、通常はデータが歪んでいて左の裾が長くなっています。

データの歪度と尖度を計算します。

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

歪度の値が負の場合、データは左に歪んでいることを意味します。尖度の値が 3 より大きいため、データの尖度は正規分布より大きくなります。

z スコアの計算

z スコアを計算し、3 より大きいか -3 より小さい値を探すことにより、外れ値の可能性がある値を識別します。

Z = zscore(x);
find(abs(Z)>3);

z スコアに基づくと、3 番目の観測値と 35 番目の観測値は外れ値の可能性があります。

参考

| | | | | | |

関連するトピック