Main Content

多変量回帰モデルの推定

最小二乗推定

通常の最小二乗

多変量線形回帰モデルを mvregress を使用して当てはめる場合は、最適な名前と値のペアの 'algorithm','cwls' を使用して、最小二乗推定を選択します。この場合、既定の設定では mvregressΣ=Id を使用して通常の最小二乗 (OLS) 推定値を返します。または、重み付けに共分散行列を指定した場合は、共分散の重み付き最小二乗 (CWLS) 推定を返すことができます。OLS と CWLS を結合すると、実行可能な一般化最小二乗 (FGLS) 推定を得ることができます。

係数ベクトルの OLS 推定値は、次の値が最小になるベクトル b です。

i=1n(yiXib)(yiXib).

スタックした d 次元応答である nd 行 1 列のベクトルを y、スタックした計画行列である nd 行 K 列の行列を X で表すとします。OLS 回帰係数の推定値である K 行 1 列のベクトルは、次のようになります。

bOLS=(XX)1Xy.

これは、mvregress の 1 番目の出力です。

Σ=Id であるとすると (mvregress の OLS の既定)、OLS 推定値の分散共分散行列は次のようになります。

V(bOLS)=(XX)1.

これは、mvregress の 4 番目の出力です。OLS 回帰係数の標準誤差は、この分散共分散行列の対角の平方根になります。

Σ=σ2Id になるようにはデータをスケーリングしていない場合、σ2 の不偏推定である平均二乗誤差 (MSE) を mvregress の分散共分散行列に乗算できます。MSE を計算するため、n 行 d 列の残差の行列 E が返されます (mvregress の 3 番目の出力)。すると、次のようになります。

MSE=i=1neieinK,

ここで、ei=(yiXiβ)E の i 番目の行です。

共分散の重み付き最小二乗

ほとんどの多変量の問題は、単位誤差の共分散行列が不十分であるため、標準誤差の推定値の効率性が低くなったり、偏ったりします。オプションの名前と値のペアの引数 covar0 を使用すると、C0 という名前の d 行 d 列の可逆行列など、CWLS 推定値の行列を指定できます。通常、C0 は対角行列であり、不均一分散をモデル化するための各次元の重みが逆行列 C01 に含まれています。ただし、C0 は相関をモデル化する非対角行列にすることもできます。

C0 が与えられた場合、CWLS の解は次の値を最小化するベクトル b です。

i=1n(yiXib)C0(yiXib).

この場合、CWLS 回帰係数の推定値である K 行 1 列のベクトルは次のようになります。

bCWLS=(X(InC0)1X)1X(InC0)1y.

これは、mvregress の 1 番目の出力です。

Σ=C0 の場合、これは一般化最小二乗 (GLS) の解になります。対応する CWLS 推定値の分散共分散行列は、次のようになります。

V(bCWLS)=(X'(InC0)1X)1.

これは、mvregress の 4 番目の出力です。CWLS 回帰係数の標準誤差は、この分散共分散行列の対角の平方根になります。

誤差の共分散行列が比率までしかわからない場合、つまり Σ=σ2C0 の場合、通常の最小二乗で説明されているように、mvregress の分散共分散行列に MSE を乗算できます。

誤差の共分散推定

使用する最小二乗法に関係なく、誤差の分散共分散行列の推定値は次のようになります。

Σ^=(σ^12σ^12σ^1dσ^12σ^22σ^2dσ^1dσ^2dσ^d2)=EEn,

ここで、E は n 行 d 列の残差の行列です。E の i 番目の行は ei=(yiXib). です。

誤差の共分散の推定値 Σ^mvregress の 2 番目の出力、残差の行列 E は 3 番目の出力です。オプションの名前と値のペアの引数 'covtype','diagonal' を指定した場合、mvregress は次のように非対角要素がゼロの Σ^ を返します。

Σ^=(σ^1200σ^d2).

実行可能な一般化最小二乗

一般化最小二乗推定は、既知の共分散行列を使用する CWLS 推定です。つまり、Σ が既知の場合、GLS の解は次のようになります。

bGLS=(X(InΣ)1X)1X(InΣ)1y,

分散共分散行列は次のようになります。

V(bGLS)=(X(InΣ)1X)1.

多くの場合、誤差の共分散は不明です。実行可能な一般化最小二乗 (FGLS) の推定値では、Σ の代わりに Σ^ を使用します。以下のようにして、2 ステップの FGLS 推定を取得できます。

  1. OLS 回帰を実行し、推定値 Σ^ を取得する。

  2. C0=Σ^ を使用して CWLS 回帰を実行する。

また、収束に達するまでこれらの 2 つの手順を反復することもできます。

データによっては、OLS の推定値 Σ^ が半正定値になり、一意な逆行列がありません。この場合は、mvregress を使用して FGLS 推定を得ることができません。代替方法として、一般化逆数を使用して半正定値共分散行列の重み付き最小二乗解を返す lscov を使用できます。

パネル補正標準誤差

FGLS の代替方法として、(一貫性のある) OLS 係数推定を使用し、標準誤差の補正を行って効率を向上させることができます。このような標準誤差調整 (共分散行列の逆演算を必要としない) が、パネル補正標準誤差 (PCSE) [1] です。OLS 推定値のパネル補正分散共分散行列は次のようになります。

Vpcse(bOLS)=(XX)1X(InΣ)X(XX)1.

PCSE は、この分散共分散行列の対角の平方根です。PCSE の計算については、同時相関を使用する固定効果のパネル モデルを参照してください。

最尤推定法

最尤推定

mvregress で使用される既定の推定アルゴリズムは、最尤推定法 (MLE) です。多変量線形回帰モデルの対数尤度関数は次のようになります。

logL(β,Σ|y,X)=12ndlog(2π)+12nlog(det(Σ))+12i=1n(yiXiβ)Σ1(yiXiβ).

βΣ の MLE は、対数尤度目的関数を最大化する値です。

mvregress では、反復的な 2 段階アルゴリズムを使用して MLE を見つけます。m + 1 回目の反復では、推定値は次のようになります。

bMLE(m+1)=(X(InΣ(m))1X)1X(InΣ(m))1y

および

Σ^(m+1)=1ni=1n(yiXibMLE(m+1))(yiXibMLE(m+1)).

係数推定および対数尤度目的関数の変更が指定された許容誤差よりも小さい場合または指定された最大反復回数に達すると、アルゴリズムが終了します。これらの収束基準を変更するためのオプションの名前と値のペア引数はそれぞれ、tolbetatolobj および maxiter です。

標準誤差

MLE の分散共分散行列は、オプションの mvregress 出力です。既定の設定では、mvregress は回帰係数のみについて分散共分散行列を返します。しかし、オプションの名前と値のペアの引数 'vartype','full' を使用すると、Σ^ の分散共分散行列も取得できます。この場合、mvregress は、すべての K 回帰係数の分散共分散行列および d または d(d + 1)/2 共分散項 (誤差の共分散が対角であるか、完全であるかによって異なります) を返します。

既定では、分散共分散行列は、観測されたフィッシャー情報行列の逆行列 ('hessian' オプション) です。オプションの名前と値のペアの 'vartype','fisher' を使用して予想フィッシャー情報行列を要求できます。応答データが欠損していない場合、観測フィッシャー情報行列と予想フィッシャー情報行列は同じです。応答データが欠損している場合、観測フィッシャー情報では、欠損値が原因で追加の不確定性が考慮されますが、予想フィッシャー情報行列では考慮されません。

回帰係数 MLE の分散共分散行列は次のようになります。

V(bMLE)=(X(InΣ^)1X)1,

これは、誤差の共分散行列の MLE で評価したものです。これは、4 番目の mvregress 出力です。MLE の標準誤差は、この分散共分散行列の対角の平方根になります。

Σ^ について、推定した分散共分散行列におけるパラメーターのベクトルを θ で表すとします。たとえば、d = 2 の場合は次のようになります。

  • 推定される共分散行列が対角行列の場合、θ=(σ^12,σ^22)

  • 推定される共分散行列が非スパース行列の場合、θ=(σ^12,σ^12,σ^22)

θ のフィッシャー情報行列 I(θ) には次の要素が含まれています。

I(θ)u,v=12tr(Σ^1Σ^θuΣ^1Σ^θv),u,v=1,,nθ,

ここで、nθθ の長さ (d または d(d + 1)/2) です。生成される分散共分散行列は次のようになります。

V(θ)=I(θ)1.

非スパースの分散共分散行列を要求した場合、mvregress は (4 番目の出力として) 次のようなブロック対角行列を返します。

(V(bMLE)00V(θ)).

欠損応答データ

期待値または条件付き最大化

応答値が欠損していることが、NaN で示される場合、mvregress では推定に期待値/条件付き最大化 (ECM) アルゴリズムを使用します (使用可能なデータが十分にある場合)。この場合、アルゴリズムは最小二乗と最尤推定の両方に対して反復的です。各反復中、mvregress はそれらの条件付き期待値を使用して欠損応答値を補定します。

データを整理して、欠損応答 y˜ と観測された応答 y の同時分布を次の形式で記述できるようにします。

(y˜y)MVN{(X˜βXβ),(Σy˜Σy˜yΣyy˜Σy)}.

多変量正規分布の性質を利用すると、観測された応答が与えられた場合、欠損応答の条件付き期待値は次のようになります。

E(y˜|y)=X˜β+Σy˜yΣy1(yXβ).

また、条件付き分布の分散共分散行列は次のようになります。

COV(y˜|y)=Σy˜Σy˜yΣy1Σyy˜.

ECM アルゴリズムの各反復で、mvregress は前回の反復のパラメーター値を使用して次のことを行います。

  • 観測された応答の結合ベクトルと欠損応答の条件付き期待値を使用して回帰係数を更新します。

  • 条件付き分布の分散共分散行列を使用して、分散共分散行列を更新し、欠損応答に合わせて調整します。

最終的に、欠損応答に対して mvregress から返される残差は、条件付き期待値と近似値間の差異であり、どちらも最終パラメーター推定で評価されます。

欠損応答値をもつ観測を無視する場合は、名前と値のペアの 'algorithm','mvn' を使用します。mvregress では常に、欠損予測子値を含む観測が無視されます。

観測情報行列

既定では、mvregress は観測されたフィッシャー情報行列 ('hessian' オプション) を使用して、回帰パラメーターの分散共分散行列を計算します。この場合、欠損応答値が原因で追加の不確実性が考慮されます。

観測情報行列には、観測された応答のみからの寄与が含まれます。つまり、誤差の分散共分散行列のパラメーターについて、観測値のフィッシャー情報行列には次の要素が含まれます。

I(θ)u,v=12i=1ntr(Σ^i1Σ^iθuΣ^i1Σ^iθv),u,v=1,,nθ,

ここで、Σ^iyi. の観測された応答に対応する Σ^ のサブセットです。

たとえば、d = 3 で yi2 が欠損している場合、次のようになります。

Σ^i=(σ^12σ^13σ^13σ^32).

回帰係数についての観測値のフィッシャー情報行列には、計画行列および共分散行列による同様の寄与が含まれます。

参照

[1] Beck, N. and J. N. Katz. "What to Do (and Not to Do) with Time-Series-Cross-Section Data in Comparative Politics." American Political Science Review, Vol. 89, No. 3, pp. 634–647, 1995.

参考

|

関連する例

詳細