正則化とは、効果的な予測モデルを生み出す予測子の小さな集合を見つけ出す過程です。線形判別分析には、γ および δ の 2 つのパラメーターがあり、これらは次のように正則化を制御します。cvshrink
は適切なパラメーター値の選択を支援します。
Σ がデータ X の共分散行列を表し、 が中心データ (データ X からクラス別の平均を減算したデータ) であるとします。次のように定義します。
正則化した共分散行列 は次のようになります。
γ ≥ MinGamma
である場合、 は常に正則です。
μk を k クラスの X の要素の平均ベクトルとし、μ0 をグローバル平均ベクトル (X の行の平均) とします。C がデータ X の相関行列、 が正則化された相関行列であるとします。
ここで I が単位行列です。
データ点 x の正則化された判別分析分類器にある線形項は
パラメーター δ は、大かっこ内の最後の項にしきい値としてこの式を入力します。ベクトル の各成分は、大きさがしきい値 δ より小さい場合、ゼロが設定されます。そのため、クラス k に対して、コンポーネント j のしきい値を 0 に設定した場合、x のコンポーネント j は事後確率の評価には入りません。
DeltaPredictor
プロパティは、このしきい値に関係するベクトルです。δ ≥ DeltaPredictor(i)
の場合、すべてのクラス k には次の値があります。
したがって、δ ≥ DeltaPredictor(i)
の場合、正則化された分類器は予測子 i
を使用しません。