Main Content

正規分布

概要

正規分布は、ガウス分布とも呼ばれる、パラメーターを 2 つもつ曲線群です。モデル化に正規分布を使うことは、中心極限定理により正当化されます。この定理は、(概ね) 有限の平均と分散をもつ分布からの独立標本の和は、標本サイズが大きくなるにつれて正規分布に近付くというものです。

Statistics and Machine Learning Toolbox™ には、正規分布を処理する方法がいくつか用意されています。

  • 確率分布を標本データに当てはめる (fitdist) かパラメーター値を指定する (makedist) ことにより、確率分布オブジェクト NormalDistribution を作成します。そして、オブジェクト関数を使用して、分布の評価や乱数の生成などを行います。

  • 分布フィッター アプリを使用して、正規分布を対話的に処理します。オブジェクトをアプリからエクスポートしてオブジェクト関数を使用できます。

  • 分布パラメーターを指定して、分布特有の関数 (normcdfnormpdfnorminvnormlikenormstatnormfitnormrnd) を使用します。分布特有の関数では、複数の正規分布についてのパラメーターを受け入れることができます。

  • 分布名 ('Normal') とパラメーターを指定して、汎用の分布関数 (cdficdfpdfrandom) を使用します。

パラメーター

正規分布は、次のパラメーターを使用します。

パラメーター説明サポート
mu (μ)平均<μ<
sigma (σ)標準偏差σ0

標準正規分布は、ゼロ平均と単位標準偏差をもちます。z が標準正規の場合、σz + µ もまた平均 µ および標準偏差 σ をもつ正規です。反対に、x が平均 µ および標準偏差 σ をもつ正規分布に従っている場合、z = (x - µ) / σ は標準正規分布に従います。

パラメーター推定

"最尤推定量" (MLE) は、尤度関数が最大になるパラメーター推定値です。正規分布の μ および σ2 の最尤推定量は、それぞれ次のようになります。

x¯=i=1nxin

および

sMLE2=1ni=1n(xix¯)2.

x¯ は、標本 x1, x2, …, xn の標本平均です。標本平均は、パラメーター μ の不偏推定量です。しかし、s2MLEσ2 の偏りがある推定量です。つまり、期待値がパラメーターに等しくなりません。

"最小分散不偏推定量" (MVUE) は、正規分布のパラメーターを推定するために一般的に使用されます。MVUE は、パラメーターのすべての不偏推定量の中で最小の分散をもつ推定量です。正規分布のパラメーター μ および σ2 の MVUE は、それぞれ標本平均 および標本分散 s2 です。

s2=1n1i=1n(xix¯)2

正規分布をデータに当てはめてパラメーター推定を求めるには、normfitfitdist または mle を使用します。

  • 打ち切りがないデータの場合、normfitfitdist は不偏推定量を、mle は最尤推定量を求めます。

  • 打ち切りがあるデータの場合、normfitfitdist および mle は最尤推定量を求めます。

パラメーター推定を返す normfit および mle と異なり、fitdist は当てはめた確率分布オブジェクト NormalDistribution を返します。オブジェクト プロパティ mu および sigma にはパラメーター推定が格納されます。

たとえば、正規分布オブジェクトの当てはめを参照してください。

確率密度関数

正規確率密度関数 (pdf) は次のようになります。

y=f(x|μ,σ)=1σ2πe(xμ)22σ2,forx.

"尤度関数" は、パラメーターの関数として見た場合の確率密度関数です。最尤推定量 (MLE) は、x の値を固定した状態で尤度関数が最大になるパラメーター推定値です。

たとえば、正規分布確率密度関数の計算とプロットを参照してください。

累積分布関数

正規累積分布関数 (cdf) は次のようになります。

p=F(x|μ,σ)=1σ2πxe(tμ)22σ2dt,forx.

p は、パラメーター μ および σ をもつ正規分布から派生した単一の観測値が区間 (-∞,x] に含まれる確率です。

標準正規累積分布関数 Φ(x) は、誤差関数 erf に関連しています。

Φ(x)=12(1erf(x2))

ここで

erf(x)=2π0xedt2t=2Φ(2x)1.

例については、標準正規分布の累積分布関数のプロットを参照してください。

正規分布オブジェクトの当てはめ

標本データを読み込み、学生の試験成績データの 1 列目が含まれているベクトルを作成します。

load examgrades
x = grades(:,1);

正規分布をデータに近似することにより、正規分布オブジェクトを作成します。

pd = fitdist(x,'Normal')
pd = 
  NormalDistribution

  Normal distribution
       mu = 75.0083   [73.4321, 76.5846]
    sigma =  8.7202   [7.7391, 9.98843]

パラメーター推定の横にある区間は分布パラメーターの 95% 信頼区間です。

パラメーターの推定

関数normfitを使用して、正規分布のパラメーター (平均と標準偏差) を推定します。

標本データを読み込み、学生の試験成績データの 1 列目が含まれているベクトルを作成します。

load examgrades
x = grades(:,1);

パラメーター推定と 95% 信頼区間を求めます。

[mu,s,muci,sci] = normfit(x)
mu = 75.0083
s = 8.7202
muci = 2×1

   73.4321
   76.5846

sci = 2×1

    7.7391
    9.9884

関数 normfit は、μ の最小分散不偏推定量 (MVUE)、σ2 の MVUE の平方根、μ および σ の 95% 信頼区間を返します。

分散の MVUE は s の 2 乗であることに注意してください。

s^2
ans = 76.0419

正規分布確率密度関数の計算とプロット

パラメーター μ が 0、σ が 1 に等しい標準正規分布の pdf を計算します。

x = [-3:.1:3];
y = normpdf(x,0,1);

確率密度関数をプロットします。

plot(x,y)

Figure contains an axes object. The axes object contains an object of type line.

標準正規分布の累積分布関数のプロット

標準正規分布オブジェクトを作成します。

pd = makedist('Normal')
pd = 
  NormalDistribution

  Normal distribution
       mu = 0
    sigma = 1

x 値を指定し、累積分布関数を計算します。

x = -3:.1:3;
p = cdf(pd,x);

標準正規分布の累積分布関数をプロットします。

plot(x,p)

Figure contains an axes object. The axes object contains an object of type line.

ガンマ分布と正規分布の pdf の比較

ガンマ分布には、形状パラメーター a とスケール パラメーター b があります。a が大きくなると、ガンマ分布は平均 μ=ab および分散 σ2=ab2 をもつ正規分布に近づきます。

a = 100 および b = 5 の各パラメーターを使用してガンマ分布の確率密度関数を計算します。

a = 100;
b = 5;
x = 250:750;
y_gam = gampdf(x,a,b);

比較のために、ガンマによって近似される正規分布の平均、標準偏差、pdf を計算します。

mu = a*b
mu = 500
sigma = sqrt(a*b^2)
sigma = 50
y_norm = normpdf(x,mu,sigma);

ガンマ分布と正規分布の確率密度関数を、同じ Figure にプロットします。

plot(x,y_gam,'-',x,y_norm,'-.')
title('Gamma and Normal pdfs')
xlabel('Observation')
ylabel('Probability Density')
legend('Gamma Distribution','Normal Distribution')

Figure contains an axes object. The axes object with title Gamma and Normal pdfs, xlabel Observation, ylabel Probability Density contains 2 objects of type line. These objects represent Gamma Distribution, Normal Distribution.

正規分布の pdf はガンマ分布の pdf に近づきます。

正規分布と対数正規分布の関係

X がパラメーター µ および σ をもつ対数正規分布に従う場合、log(X) は平均 µ および標準偏差 σ をもつ正規分布に従います。分布オブジェクトを使用して、正規分布と対数正規分布の関係を調べます。

パラメーター値を指定して対数正規分布オブジェクトを作成します。

pd = makedist('Lognormal','mu',5,'sigma',2)
pd = 
  LognormalDistribution

  Lognormal distribution
       mu = 5
    sigma = 2

対数正規分布の平均値を計算します。

mean(pd)
ans = 1.0966e+03

対数正規分布の平均値は、mu パラメーターと等しくありません。対数値の平均は mu に等しくなります。乱数を生成して、この関係を確認します。

対数正規分布から乱数を生成し、その対数値を計算します。

rng('default');  % For reproducibility
x = random(pd,10000,1);
logx = log(x);

対数値の平均を計算します。

m = mean(logx)
m = 5.0033

x は対数正規分布に従うので、x の対数の平均は xmu パラメーターに近くなっています。

正規分布近似を使用して、logx のヒストグラムを作成します。

histfit(logx)

Figure contains an axes object. The axes object contains 2 objects of type bar, line.

このプロットは、x の対数値が正規分布に従うことを示しています。

histfit は、fitdist を使用して分布をデータに当てはめます。fitdist を使用して、当てはめに使用されたパラメーターを取得します。

pd_normal = fitdist(logx,'Normal')
pd_normal = 
  NormalDistribution

  Normal distribution
       mu = 5.00332   [4.96445, 5.04219]
    sigma = 1.98296   [1.95585, 2.01083]

推定された正規分布のパラメーターは、対数正規分布のパラメーター 5 および 2 に近くなっています。

スチューデントの t 分布と正規分布の pdf の比較

スチューデントの t 分布は、単一のパラメーター ν (自由度) に依存する曲線族です。自由度 ν が無限大に近づくと、t 分布は標準正規分布に近づきます。

パラメーター nu = 5 をもつスチューデントの t 分布とパラメーター nu = 15 をもつスチューデントの t 分布の pdf を計算します。

x = [-5:0.1:5];
y1 = tpdf(x,5);
y2 = tpdf(x,15);

標準正規分布の pdf を計算します。

z = normpdf(x,0,1);

スチューデントの t 分布の pdf と標準正規分布の pdf を、同じ Figure にプロットします。

plot(x,y1,'-.',x,y2,'--',x,z,'-')
legend('Student''s t Distribution with \nu=5', ...
    'Student''s t Distribution with \nu=15', ...
    'Standard Normal Distribution','Location','best')
xlabel('Observation')
ylabel('Probability Density')
title('Student''s t and Standard Normal pdfs')

Figure contains an axes object. The axes object with title Student's t and Standard Normal pdfs, xlabel Observation, ylabel Probability Density contains 3 objects of type line. These objects represent Student's t Distribution with \nu=5, Student's t Distribution with \nu=15, Standard Normal Distribution.

標準正規分布の pdf は、スチューデントの t 分布の pdf より裾が短くなっています。

関連する分布

  • 二項分布— 二項分布は、成功確率が p である試行を n 回繰り返した場合の総成功回数をモデル化します。n が大きくなると、µ = np および σ2 = np(1–p) である正規分布で二項分布を近似できます。二項分布と正規分布の pdf の比較を参照してください。

  • バーンバウム・サンダース分布— パラメーター β および γ をもつバーンバウム・サンダース分布に x が従う場合、

    (xββx)γ

    は標準正規分布に従います。

  • カイ二乗分布— カイ二乗分布は、独立した標準正規確率変数の二乗和の分布です。n 個の観測値の集合が分散 σ2 の正規分布に従っており、s2 が標本分散である場合、(n–1)s22 は自由度が n–1 であるカイ二乗分布に従います。関数 normfit は、この関係を使用して、正規パラメーター σ2 の推定に対する信頼区間を計算します。

  • 極値分布— 極値分布は、裾が指数的に速く減衰する分布 (正規分布など) の最小値または最大値のモデル化に適しています。

  • ガンマ分布— ガンマ分布には、形状パラメーター a とスケール パラメーター b があります。a が大きくなると、ガンマ分布は平均 μ = ab および分散 σ2 = ab2 をもつ正規分布に近づきます。ガンマ分布は、正の実数に対してのみ密度をもちます。ガンマ分布と正規分布の pdf の比較を参照してください。

  • 半正規分布— 半正規分布は、折り返された正規分布および打ち切られた正規分布という特殊なケースです。確率変数 Z が標準正規分布に従う場合、X=μ+σ|Z| はパラメーター μ および σ をもつ半正規分布に従います。

  • ロジスティック分布— ロジスティック分布は、成長モデルとロジスティック回帰で使用されます。ロジスティック分布は、正規分布に比べ、長い裾と高い尖度をもちます。

  • 対数正規分布— X がパラメーター µ および σ をもつ対数正規分布に従う場合、log(X) は平均 µ および標準偏差 σ をもつ正規分布に従います。正規分布と対数正規分布の関係を参照してください。

  • 多変量正規分布— 多変量正規分布は、一変量正規分布を 2 つ以上の変数に一般化したものです。これは、各要素が一変量正規分布に従う、関連する変数によるランダム ベクトルに対する分布です。最も単純なケースでは、変数間に相関がなく、ベクトルの各要素は一変量正規分布に従う独立確率変数です。

  • ポアソン分布— ポアソン分布は、非負の整数値をとる 1 パラメーターの離散分布です。パラメーター λ は、分布の平均と分散の両方を示します。λ が大きくなると、ポアソン分布は µ = λ および σ2 = λ である正規分布で近似できます。

  • レイリー分布— レイリー分布は、ワイブル分布の特殊なケースであり、通信理論に応用されます。x および y 方向における粒子の成分速度がゼロ平均および等分散をもつ 2 つの独立正規確率変数である場合、単位時間あたりに粒子が移動する距離はレイリー分布に従います。

  • 安定分布— 正規分布は、安定分布の特殊なケースです。1 番目の形状パラメーターが α = 2 である安定分布は、正規分布に対応します。

    N(μ,σ2)=S(2,0,σ2,μ).

  • スチューデントの t 分布— スチューデントの t 分布は、単一のパラメーター ν (自由度) に依存する曲線族です。自由度 ν は無限大になるので、t 分布は標準正規分布に近づきます。スチューデントの t 分布と正規分布の pdf の比較を参照してください。

    x がサイズ n の無作為標本であり、平均 μ の正規分布から派生する場合、次の統計量は自由度 n–1 をもつスチューデントの t 分布に従います。

    t=x¯μs/n

    ここで、x¯ は標本平均、s は標本標準偏差です。

  • t 位置-スケール分布t 位置-スケール分布は、正規分布よりも (外れ値になりやすい) 厚い裾をもつデータ分布のモデル化に適しています。この分布は、形状パラメーター ν が無限大に近づくと、正規分布に近づきます。

参照

[1] Abramowitz, M., and I. A. Stegun. Handbook of Mathematical Functions. New York: Dover, 1964.

[2] Evans, M., N. Hastings, and B. Peacock. Statistical Distributions. 2nd ed. Hoboken, NJ: John Wiley & Sons, Inc., 1993.

[3] Lawless, J. F. Statistical Models and Methods for Lifetime Data. Hoboken, NJ: Wiley-Interscience, 1982.

[4] Marsaglia, G., and W. W. Tsang. “A Fast, Easily Implemented Method for Sampling from Decreasing or Symmetric Unimodal Density Functions.” SIAM Journal on Scientific and Statistical Computing. Vol. 5, Number 2, 1984, pp. 349–359.

[5] Meeker, W. Q., and L. A. Escobar. Statistical Methods for Reliability Data. Hoboken, NJ: John Wiley & Sons, Inc., 1998.

参考

| | | | | | | |

関連するトピック