一般化線形モデルの LASSO 正則化

一般化線形モデルの LASSO 正則化とは

LASSO は正則化の手法です。lassoglm の使用目的は次のとおりです。

一般化線形モデル内の予測子の数の削減。
重要な予測子の識別
予測子間での冗長な予測子の選択
常の最小二乗よりも低い予測誤差による縮小推定の生成

関連する手法に "Elastic Net" があります。相関性の高い変数が複数存在する場合は Elastic Net を使用します。Alpha 名前と値のペアを厳密に 0 と 1 の間に設定すると、lassoglm が Elastic Net 正則化を行います。

LASSO および Elastic Net の計算とアルゴリズムの詳細については、一般化線形モデルの LASSO および Elastic Netを参照してください。一般化線形モデルの詳細は、一般化線形モデルとはを参照してください。

一般化線形モデルの LASSO および Elastic Net

LASSO および Elastic Net の概要

"LASSO" は一般化線形モデルを推定するための正則化手法です。LASSO には、推定された係数のサイズを制約するペナルティ項があります。その結果、これはリッジ回帰に似ています。LASSO は、"縮小推定器" です。これは小さくなるようバイアスされた係数推定を生成します。それでも、新しいデータに適用する場合、LASSO 推定器は通常の最尤推定量よりも誤差が小さくなります。

リッジ回帰と違って、ペナルティ項が増えるため、LASSO 技法はより多くの係数をゼロに設定します。つまり、LASSO 推定器は予測子の少ない、より小さいモデルです。このように、LASSO はステップワイズ回帰および他のモデル選択や次元を削減する手法の代替になります。

関連する手法に "Elastic Net" があります。Elastic Net はリッジ回帰と LASSO 正則化の混合手法に似ています。LASSO と同じように、Elastic Net ではゼロ値の係数を生成することにより、次元削減されたモデルを生成できます。実証的研究によると、Elastic Net 手法は相関性の高い予測子をもつデータに対して、LASSO よりも性能が高いとされています。

一般化線形モデルでの LASSO の定義

λ の非負の値に対して、lassoglm は次の問題を解決します。

$\min_{β_{0}, β} (\frac{1}{N} Deviance (β_{0}, β) + λ \sum_{j = 1}^{p} | β_{j} |) .$

この方程式の関数 Deviance は、切片 β₀ と予測子係数 β を使用して応答に当てはめたモデルの逸脱度です。逸脱度の式は、lassoglm に指定する distr パラメーターに依存します。λ ペナルティ付き逸脱度を最小化することは λ ペナルティ付き対数尤度を最大化することと等価です。
N は、観測数です。
λ は Lambda の 1 つの値に対応する非負の正則化パラメーターです。
パラメーター β₀ と β はそれぞれ、スカラーと長さ p のベクトルです。

λ が増えると、β の非ゼロの要素が減ります。

LASSO の問題は、Elastic Net のアルゴリズムとは対照的に β の L¹ ノルムと関わっています。

一般化線形モデルでの Elastic Net の定義

厳密に 0 と 1 の間にある α および非負の λ について、Elastic Net は次の問題を解きます。

$\min_{β_{0}, β} (\frac{1}{N} Deviance (β_{0}, β) + λ P_{α} (β)),$

ここで

$P_{α} (β) = \frac{(1 - α)}{2} {‖ β ‖}_{2}^{2} + α {‖ β ‖}_{1} = \sum_{j = 1}^{p} (\frac{(1 - α)}{2} β_{j}^{2} + α | β_{j} |) .$

α = 1 の場合、Elastic Net は LASSO と同じになります。α の他の値の場合、ペナルティ項 P_α(β) が β の L¹ ノルムと β の L² ノルムの 2 乗との間を内挿します。α が 0 に向かって縮小するにつれて、Elastic Net は ridge 回帰に近づきます。

参考文献

[1] Tibshirani, R. Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Series B, Vol. 58, No. 1, pp. 267–288, 1996.

[2] Zou, H. and T. Hastie. Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society, Series B, Vol. 67, No. 2, pp. 301–320, 2005.

[3] Friedman, J., R. Tibshirani, and T. Hastie. "Regularization paths for generalized linear models via coordinate descent." Journal of Statistical Software, Vol 33, No. 1, 2010.

[4] Hastie, T., R. Tibshirani, and J. Friedman. The Elements of Statistical Learning, 2nd edition. Springer, New York, 2008.

[5] McCullagh, P., and J. A. Nelder. Generalized Linear Models, 2nd edition. Chapman & Hall/CRC Press, 1989.