LASSO および Elastic Net

LASSO と Elastic Net とは

LASSO は正則化の手法です。lasso の使用目的は次のとおりです。

回帰モデル内の予測子の削減
重要な予測子の識別
予測子間での冗長な予測子の選択
常の最小二乗よりも低い予測誤差による縮小推定の生成

関連する手法に "Elastic Net" があります。相関性の高い変数が複数存在する場合は Elastic Net を使用します。Alpha 名前と値のペアを厳密に 0 と 1 の間に設定すると、lasso が Elastic Net 正則化を行います。

LASSO および Elastic Net の詳細を参照してください。

アンサンブル回帰の LASSO 正則化については、regularize の項を参照してください。

LASSO および Elastic Net の詳細

LASSO および Elastic Net の概要

LASSO は線形回帰を実行するための正則化手法です。LASSO には、推定された係数のサイズを制約するペナルティ項があります。このため、リッジ回帰に似ています。LASSO は、"縮小推定器" です。これは小さくなるようバイアスされた係数推定を生成します。それでも、新しいデータに適用する場合、LASSO 推定量は通常の最小二乗推定量よりも平均二乗誤差が小さくなります。

リッジ回帰と違って、ペナルティ項が増えるため、LASSO はより多くの係数をゼロに設定します。つまり、LASSO 推定器は予測子の少ない、より小さいモデルです。このように、LASSO はステップワイズ回帰および他のモデル選択や次元を削減する手法の代替になります。

関連する手法に "Elastic Net" があります。Elastic Net はリッジ回帰と LASSO 正則化を合成した手法です。LASSO と同じように、Elastic Net ではゼロ値の係数を生成することにより、次元削減されたモデルを生成できます。実証的研究によると、Elastic Net 手法は相関性の高い予測子をもつデータであるため、LASSO よりも性能が高いとされています。

LASSO の定義

"LASSO" 手法で、この正則化の問題を解決します。指定の λ 値 (非負のパラメーター) の場合、lasso は次の問題を解決します。

$\min_{β_{0}, β} (\frac{1}{2 N} \sum_{i = 1}^{N} {(y_{i} - β_{0} - x_{i}^{T} β)}^{2} + λ \sum_{j = 1}^{p} | β_{j} |) .$

N は、観測数です。
y_i は、観測値 i の応答データです。
x_i はデータ (観測値 i の p 値のベクトル) です。
λ は Lambda の 1 つの値に対応する正の正則化パラメーターです。
パラメーター β₀ と β はそれぞれ、スカラーとベクトル p です。

λ が増えると、β の非ゼロの要素が減ります。

LASSO の問題は、Elastic Net のアルゴリズムとは対照的に β の L¹ ノルムと関わっています。

Elastic Net の定義

"Elastic Net" 手法で、この正則化の問題を解決します。厳密に 0 と 1 の間の α、および非負の λ の場合、Elastic Net で次の問題を解決します。

$\min_{β_{0}, β} (\frac{1}{2 N} \sum_{i = 1}^{N} {(y_{i} - β_{0} - x_{i}^{T} β)}^{2} + λ P_{α} (β)),$

ここで

$P_{α} (β) = \frac{(1 - α)}{2} {‖ β ‖}_{2}^{2} + α {‖ β ‖}_{1} = \sum_{j = 1}^{p} (\frac{(1 - α)}{2} β_{j}^{2} + α | β_{j} |) .$

α = 1 の場合、Elastic Net は LASSO と同じになります。α が 0 に向かって縮小するにつれて、Elastic Net は ridge 回帰に近づきます。α の他の値の場合、ペナルティ項 P_α(β) が β の L¹ ノルムと β の L² ノルムの 2 乗との間を内挿します。

参考文献

[1] Tibshirani, R. "Regression shrinkage and selection via the lasso." Journal of the Royal Statistical Society, Series B, Vol 58, No. 1, pp. 267–288, 1996.

[2] Zou, H. and T. Hastie. "Regularization and variable selection via the elastic net." Journal of the Royal Statistical Society, Series B, Vol. 67, No. 2, pp. 301–320, 2005.

[3] Friedman, J., R. Tibshirani, and T. Hastie. "Regularization paths for generalized linear models via coordinate descent." Journal of Statistical Software, Vol 33, No. 1, 2010. https://www.jstatsoft.org/v33/i01

[4] Hastie, T., R. Tibshirani, and J. Friedman. The Elements of Statistical Learning, 2nd edition. Springer, New York, 2008.

参考

lasso | lassoglm | fitrlinear | lassoPlot | ridge