ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

データの探索的解析

この例では、記述統計を使用してデータの分布を調べる方法を示します。

標本データを生成します。

無作為に生成した標本データが含まれているベクトルを作成します。

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

ヒストグラムをプロットします。

標本データのヒストグラムを正規密度の近似とともにプロットします。このようにすると、データにあてはめた正規分布と標本データを視覚的に比較できます。

histfit(x)

データの分布は歪んでおり、左の裾が長くなっているように見えます。正規分布は、この標本データに適した近似ではないようです。

正規確率プロットを取得します。

正規確率プロットを取得します。このプロットは、データにあてはめた正規分布と標本データを視覚的に比較するための別の方法を提供します。

probplot('normal',x)

この確率プロットも、データが正規性から逸脱していることを示しています。

分位数を計算します。

標本データの分位数を計算します。

p = 0:0.25:1;
y = quantile(x,p);
z = [p;y]
z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

箱ひげ図を作成して統計量を可視化します。

boxplot(x)

箱ひげ図には、0.25、0.5 および 0.75 の分位数が示されます。長い下裾とプラス記号は、標本データの値に対称性が欠けていることを示しています。

記述統計を計算する。

データの平均値と中央値を計算します。

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

平均値と中央値は近いように見えますが、平均値が中央値より小さい場合、通常はデータが歪んでいて左の裾が長くなっています。

データの歪度と尖度を計算します。

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

歪度の値が負の場合、データは左に歪んでいることを意味します。尖度の値が 3 より大きいため、データの尖度は正規分布より大きくなります。

z スコアを計算します。

z スコアを計算し、3 より大きいか -3 より小さい値を探すことにより、外れ値の可能性がある値を識別します。

Z = zscore(x);
find(abs(Z)>3);

z スコアに基づくと、3 番目の観測値と 35 番目の観測値は外れ値の可能性があります。

参考

| | | | | | |

関連するトピック