一般化極値分布
定義
位置パラメーター µ と スケール パラメーター σ、および形状パラメーター k
≠ 0
をもつ一般化極値分布に対する確率密度関数は、次の式で表されます。
これは次の場合です。
k > 0
は、タイプ II の場合に対応し、k < 0
はタイプ III の場合に対応します。k = 0
ではタイプ I の場合に対応し、密度は次のようになります。
背景
極値分布のように、一般化極値分布は、測定値や観測値を表す互いに独立で同一の分布に従う乱数の大きな集合における最小値あるいは最大値をモデリングするために使用されることが多くあります。たとえば、製造工程からの 1000 のワッシャーがあるものとします。各バッチの最大のワッシャーのサイズを記録すると、データはブロックの最大 (あるいは、最小を記録する場合は最小) であることがわかっています。これらのブロックの最大に対するモデルとして、一般化極値分布を使用できます。
一般化極値分布は、より簡単な 3 つの分布を 1 つの形にまとめます。この場合、これらのより簡単な 3 つの分布すべてを含む可能な形状を連続的にとることができます。これらの分布のいずれかを使用して、ブロック最大の特定のデータセットをモデル化できます。一般化極値分布により、どの分布が適切であるかを "データに決めさせる" ことができます。
一般化極値分布によってカバーされる 3 つのケースは、タイプ I、II、III と呼ばれることがよくあります。それぞれのタイプは、基準となる分布の異なるクラスから派生したブロック最大の極限分布に該当します。正規分布のように両裾が指数減衰する分布は、タイプ I になります。スチューデントの t 分布のように両裾が多項式減衰する分布は、タイプ II になります。ベータ分布のように分布の裾が有限の場合は、タイプ III になります。
タイプ I、II、III は、多少紛らわしい用語かもしれませんが、Gumbel、Frechet、Weibull タイプと呼ばれることもあります。タイプ I (Gumbel) とタイプ III (Weibull) の場合は、たとえば、それぞれ、関数 evcdf
、evfit
、または wblcdf
、wblfit
によって計算されるように、実際は、通常の Gumbel および Weibull 分布の鏡像に相当します。最後に、タイプ II (Frechet) の場合は、標準の Weibull 分布からの値の逆数をとることに相当します。
パラメーター
一般化極値分布の当てはめ
自由度 5 のスチューデントの "t" 分布から取り出された 1000 個の乱数値からなる 250 ブロックを生成します。それらの最大に一般化極値分布を当てはめます。
blocksize = 1000; nblocks = 250; rng("default") % For reproducibility t = trnd(5,blocksize,nblocks); x = max(t); % 250 column maxima paramEsts = gevfit(x)
paramEsts = 1×3
0.1185 1.4530 5.8929
スチューデントの "t" 分布のブロック最大に基づく形状パラメーターの推定 (最初の要素) は正であることに注意してください。
histogram(x,2:20,"FaceColor",[0.8 0.8 1]); xgrid = linspace(2,20,1000); line(xgrid,nblocks* ... gevpdf(xgrid,paramEsts(1),paramEsts(2),paramEsts(3)));
例
一般化極値分布の確率密度関数の計算
一般化極値分布の 3 つの基本的な形式に対する確率密度関数の例を作成します。
x = linspace(-3,6,1000); y1 = gevpdf(x,-.5,1,0); y2 = gevpdf(x,0,1,0); y3 = gevpdf(x,.5,1,0); plot(x,y1,'-', x,y2,'--', x,y3,':') legend({'K < 0, Type III' 'K = 0, Type I' 'K > 0, Type II'})
k > 0
である場合、 で x
の確率密度がゼロになることがわかります。
k < 0
である場合、 で分布の確率密度がゼロになります。
k = 0
の場合、上限と下限はありません。
参考
GeneralizedExtremeValueDistribution