正規分布

概要

正規分布は、ガウス分布とも呼ばれる、パラメーターを 2 つもつ曲線群です。モデル化に正規分布を使うことは、中心極限定理により正当化されます。この定理は、(概ね) 有限の平均と分散をもつ分布からの独立標本の和は、標本サイズが大きくなるにつれて正規分布に近付くというものです。

Statistics and Machine Learning Toolbox™ には、正規分布を処理する方法がいくつか用意されています。

確率分布を標本データに当てはめる (fitdist) かパラメーター値を指定する (makedist) ことにより、確率分布オブジェクト NormalDistribution を作成します。そして、オブジェクト関数を使用して、分布の評価や乱数の生成などを行います。
分布フィッターアプリを使用して、正規分布を対話的に処理します。オブジェクトをアプリからエクスポートしてオブジェクト関数を使用できます。
分布パラメーターを指定して、分布特有の関数 (normcdf、normpdf、norminv、normlike、normstat、normfit、normrnd) を使用します。分布特有の関数では、複数の正規分布についてのパラメーターを受け入れることができます。
分布名 ('Normal') とパラメーターを指定して、汎用の分布関数 (cdf、icdf、pdf、random) を使用します。

パラメーター

正規分布は、次のパラメーターを使用します。

パラメーター	説明	サポート
`mu` (μ)	平均	$- \infty < μ < \infty$
`sigma` (σ)	標準偏差	$σ \geq 0$

標準正規分布は、ゼロ平均と単位標準偏差をもちます。z が標準正規の場合、σz + µ もまた平均 µ および標準偏差 σ をもつ正規です。反対に、x が平均 µ および標準偏差 σ をもつ正規分布に従っている場合、z = (x - µ) / σ は標準正規分布に従います。

パラメーター推定

"最尤推定量" (MLE) は、尤度関数が最大になるパラメーター推定値です。正規分布の μ および σ² の最尤推定量は、それぞれ次のようになります。

$\bar{x} = \sum_{i = 1}^{n} \frac{x_{i}}{n}$

および

$s_{MLE}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} .$

$\bar{x}$ は、標本 x₁, x₂, …, x_n の標本平均です。標本平均は、パラメーター μ の不偏推定量です。しかし、s²_MLEσ² の偏りがある推定量です。つまり、期待値がパラメーターに等しくなりません。

"最小分散不偏推定量" (MVUE) は、正規分布のパラメーターを推定するために一般的に使用されます。MVUE は、パラメーターのすべての不偏推定量の中で最小の分散をもつ推定量です。正規分布のパラメーター μ および σ² の MVUE は、それぞれ標本平均 x̄ および標本分散 s² です。

$s^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}$

正規分布をデータに当てはめてパラメーター推定を求めるには、normfit、fitdist または mle を使用します。

打ち切りがないデータの場合、normfit と fitdist は不偏推定量を、mle は最尤推定量を求めます。
打ち切りがあるデータの場合、normfit、fitdist および mle は最尤推定量を求めます。

パラメーター推定を返す normfit および mle と異なり、fitdist は当てはめた確率分布オブジェクト NormalDistribution を返します。オブジェクトプロパティ mu および sigma にはパラメーター推定が格納されます。

たとえば、正規分布オブジェクトの当てはめを参照してください。

確率密度関数

正規確率密度関数 (pdf) は次のようになります。

$y = f (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} e^{\frac{- {(x - μ)}^{2}}{2 σ^{2}}}, for x \in ℝ .$

"尤度関数" は、パラメーターの関数として見た場合の確率密度関数です。最尤推定量 (MLE) は、x の値を固定した状態で尤度関数が最大になるパラメーター推定値です。

たとえば、正規分布確率密度関数の計算とプロットを参照してください。

累積分布関数

正規累積分布関数 (cdf) は次のようになります。

$p = F (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} \int_{- \infty}^{x} e^{\frac{- {(t - μ)}^{2}}{2 σ^{2}}} d t, for x \in ℝ .$

p は、パラメーター μ および σ をもつ正規分布から派生した単一の観測値が区間 (-∞,x] に含まれる確率です。

標準正規累積分布関数 Φ(x) は、誤差関数 erf に関連しています。

$Φ (x) = \frac{1}{2} (1 - erf (- \frac{x}{\sqrt{2}}))$

ここで

$erf (x) = \frac{2}{\sqrt{π}} \int_{0}^{x} e {}^{- t^{2}}d t = 2 Φ (\sqrt{2} x) - 1.$

例については、標準正規分布の累積分布関数のプロットを参照してください。

例

正規分布オブジェクトの当てはめ

ライブスクリプトを開く

標本データを読み込み、学生の試験成績データの 1 列目が含まれているベクトルを作成します。

load examgrades
x = grades(:,1);

正規分布をデータに近似することにより、正規分布オブジェクトを作成します。

pd = fitdist(x,'Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 75.0083   [73.4321, 76.5846]
    sigma =  8.7202   [7.7391, 9.98843]

パラメーター推定の横にある区間は分布パラメーターの 95% 信頼区間です。

パラメーターの推定

ライブスクリプトを開く

関数normfitを使用して、正規分布のパラメーター (平均と標準偏差) を推定します。

標本データを読み込み、学生の試験成績データの 1 列目が含まれているベクトルを作成します。

load examgrades
x = grades(:,1);

パラメーター推定と 95% 信頼区間を求めます。

[mu,s,muci,sci] = normfit(x)

mu = 
75.0083

s = 
8.7202

muci = 2×1

   73.4321
   76.5846

sci = 2×1

    7.7391
    9.9884

関数 normfit は、 $μ$ の最小分散不偏推定量 (MVUE)、 $σ^{2}$ の MVUE の平方根、 $μ$ および $σ$ の 95% 信頼区間を返します。

分散の MVUE は s の 2 乗であることに注意してください。

s^2

ans = 
76.0419

正規分布確率密度関数の計算とプロット

ライブスクリプトを開く

パラメーター $μ$ が 0、 $σ$ が 1 に等しい標準正規分布の pdf を計算します。

x = [-3:.1:3];
y = normpdf(x,0,1);

確率密度関数をプロットします。

plot(x,y)

Figure contains an axes object. The axes object contains an object of type line.

標準正規分布の累積分布関数のプロット

ライブスクリプトを開く

標準正規分布オブジェクトを作成します。

pd = makedist('Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 0
    sigma = 1

x 値を指定し、累積分布関数を計算します。

x = -3:.1:3;
p = cdf(pd,x);

標準正規分布の累積分布関数をプロットします。

plot(x,p)

Figure contains an axes object. The axes object contains an object of type line.

ガンマ分布と正規分布の pdf の比較

ライブスクリプトを開く

ガンマ分布には、形状パラメーター $a$ とスケールパラメーター $b$ があります。 $a$ が大きくなると、ガンマ分布は平均 $μ = ab$ および分散 $σ^{2} = a b^{2}$ をもつ正規分布に近づきます。

a = 100 および b = 5 の各パラメーターを使用してガンマ分布の確率密度関数を計算します。

a = 100;
b = 5;
x = 250:750;
y_gam = gampdf(x,a,b);

比較のために、ガンマによって近似される正規分布の平均、標準偏差、pdf を計算します。

mu = a*b

mu = 
500

sigma = sqrt(a*b^2)

sigma = 
50

y_norm = normpdf(x,mu,sigma);

ガンマ分布と正規分布の確率密度関数を、同じ Figure にプロットします。

plot(x,y_gam,'-',x,y_norm,'-.')
title('Gamma and Normal pdfs')
xlabel('Observation')
ylabel('Probability Density')
legend('Gamma Distribution','Normal Distribution')

Figure contains an axes object. The axes object with title Gamma and Normal pdfs, xlabel Observation, ylabel Probability Density contains 2 objects of type line. These objects represent Gamma Distribution, Normal Distribution.

正規分布の pdf はガンマ分布の pdf に近づきます。

正規分布と対数正規分布の関係

ライブスクリプトを開く

X がパラメーター µ および σ をもつ対数正規分布に従う場合、log(X) は平均 µ および標準偏差 σ をもつ正規分布に従います。分布オブジェクトを使用して、正規分布と対数正規分布の関係を調べます。

パラメーター値を指定して対数正規分布オブジェクトを作成します。

pd = makedist('Lognormal','mu',5,'sigma',2)

pd = 
  LognormalDistribution

  Lognormal distribution
       mu = 5
    sigma = 2

対数正規分布の平均値を計算します。

mean(pd)

ans = 
1.0966e+03

対数正規分布の平均値は、mu パラメーターと等しくありません。対数値の平均は mu に等しくなります。乱数を生成して、この関係を確認します。

対数正規分布から乱数を生成し、その対数値を計算します。

rng('default');  % For reproducibility
x = random(pd,10000,1);
logx = log(x);

対数値の平均を計算します。

m = mean(logx)

m = 
5.0033

x は対数正規分布に従うので、x の対数の平均は x の mu パラメーターに近くなっています。

正規分布近似を使用して、logx のヒストグラムを作成します。

histfit(logx)

Figure contains an axes object. The axes object contains 2 objects of type bar, line.

このプロットは、x の対数値が正規分布に従うことを示しています。

histfit は、fitdist を使用して分布をデータに当てはめます。fitdist を使用して、当てはめに使用されたパラメーターを取得します。

pd_normal = fitdist(logx,'Normal')

pd_normal = 
  NormalDistribution

  Normal distribution
       mu = 5.00332   [4.96445, 5.04219]
    sigma = 1.98296   [1.95585, 2.01083]

推定された正規分布のパラメーターは、対数正規分布のパラメーター 5 および 2 に近くなっています。

スチューデントの `t` 分布と正規分布の pdf の比較

ライブスクリプトを開く

スチューデントの t 分布は、単一のパラメーター ν (自由度) に依存する曲線族です。自由度 ν が無限大に近づくと、t 分布は標準正規分布に近づきます。

パラメーター nu = 5 をもつスチューデントの t 分布とパラメーター nu = 15 をもつスチューデントの t 分布の pdf を計算します。

x = [-5:0.1:5];
y1 = tpdf(x,5);
y2 = tpdf(x,15);

標準正規分布の pdf を計算します。

z = normpdf(x,0,1);

スチューデントの t 分布の pdf と標準正規分布の pdf を、同じ Figure にプロットします。

plot(x,y1,'-.',x,y2,'--',x,z,'-')
legend('Student''s t Distribution with \nu=5', ...
    'Student''s t Distribution with \nu=15', ...
    'Standard Normal Distribution','Location','best')
xlabel('Observation')
ylabel('Probability Density')
title('Student''s t and Standard Normal pdfs')

$Figure contains an axes object. The axes object with title Student's t and Standard Normal pdfs, xlabel Observation, ylabel Probability Density contains 3 objects of type line. These objects represent Student's t Distribution with \nu=5, Student's t Distribution with \nu=15, Standard Normal Distribution.$

標準正規分布の pdf は、スチューデントの t 分布の pdf より裾が短くなっています。

参照

[1] Abramowitz, M., and I. A. Stegun. Handbook of Mathematical Functions. New York: Dover, 1964.

[2] Evans, M., N. Hastings, and B. Peacock. Statistical Distributions. 2nd ed. Hoboken, NJ: John Wiley & Sons, Inc., 1993.

[3] Lawless, J. F. Statistical Models and Methods for Lifetime Data. Hoboken, NJ: Wiley-Interscience, 1982.

[4] Marsaglia, G., and W. W. Tsang. “A Fast, Easily Implemented Method for Sampling from Decreasing or Symmetric Unimodal Density Functions.” SIAM Journal on Scientific and Statistical Computing. Vol. 5, Number 2, 1984, pp. 349–359.

[5] Meeker, W. Q., and L. A. Escobar. Statistical Methods for Reliability Data. Hoboken, NJ: John Wiley & Sons, Inc., 1998.

参考

正規分布

概要

パラメーター

パラメーター推定

確率密度関数

累積分布関数

例

正規分布オブジェクトの当てはめ

パラメーターの推定

正規分布確率密度関数の計算とプロット

標準正規分布の累積分布関数のプロット

ガンマ分布と正規分布の pdf の比較

正規分布と対数正規分布の関係

スチューデントの `t` 分布と正規分布の pdf の比較

関連する分布

参照

参考

トピック

正規分布

概要

パラメーター

パラメーター推定

確率密度関数

累積分布関数

例

正規分布オブジェクトの当てはめ

パラメーターの推定

正規分布確率密度関数の計算とプロット

標準正規分布の累積分布関数のプロット

ガンマ分布と正規分布の pdf の比較

正規分布と対数正規分布の関係

スチューデントの t 分布と正規分布の pdf の比較

関連する分布

参照

参考

トピック

スチューデントの `t` 分布と正規分布の pdf の比較