近傍成分分析 (NCA) 特徴選択

近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。Statistics and Machine Learning Toolbox™ の関数 fscnca および fsrnca は、正則化がある NCA 特徴選択を実行することにより、目的関数を最小化するための特徴量の重みを学習します。目的関数では、leave-one-out 分類または回帰の平均損失を学習データに対して評価します。

分類の場合の NCA 特徴選択

学習セットに n 個の観測値が含まれているマルチクラス分類問題について考えます。

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

ここで、 $x_{i} \in ℝ^{p}$ は特徴ベクトル、 $y_{i} \in {1, 2, \dots, c}$ はクラスラベル、c はクラスの数です。目的は、特徴ベクトルを受け入れて $f : ℝ^{p} \to {1, 2, \dots, c}$ $f (x)$ の真のラベル $y$ に対する予測 $x$ を行う分類器の学習です。

次のようなランダム化された分類器があるとします。

$x$ の ‘基準点’ として点 $Ref (x)$ を $S$ から無作為に選択する。
基準点 $Ref (x)$ のラベルを使用して $x$ にラベルを付ける。

この方法は、次の点 $x$ の最近傍になるように基準点が選択される 1-NN 分類器の方法に似ています。NCA では基準点は無作為に選択され、 $S$ のすべての点は何らかの確率で基準点として選択され得ます。点 $P (Ref (x) = x_{j} | S)$ が $x_{j}$ の基準点として $S$ から選択される確率 $x$ は、次のような距離関数 $x_{j}$ で測定した場合に $x$ が $d_{w}$ に近いほど大きくなります。

$d_{w} (x_{i}, x_{j}) = \sum_{r = 1}^{p} w_{r}^{2} | x_{i r} - x_{j r} |,$

$w_{r}$ は特徴量の重みです。次のように仮定します。

$\begin{array}{l} P (Ref (x) = x_{j} | S) \propto k (d_{w} (x, x_{j})) \end{array},$

ここで、 $k$ は $d_{w} (x, x_{j})$ が小さい場合に大きい値になると仮定される何らかのカーネル関数または類似度関数です。[1]で提案されているように、次のようになっているとします。

$k (z) = \exp (- \frac{z}{σ}),$

$x$ の基準点は $S$ から選択されるので、すべての j について $P (Ref (x) = x_{j} | S)$ を合計すると必ず 1 になります。したがって、次のように記述できます。

$\begin{array}{l} P (Ref (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

次に、このランダム化された分類器の leave-one-out 適用について考えます。つまり、学習セット $S$ から点 $(x_{i}, y_{i})$ を除外した $S^{- i}$ のデータを使用して $x_{i}$ のラベルを予測します。点 $x_{j}$ が $x_{i}$ の基準点として選択される確率は次のようになります。

$p_{i j} = P (Ref (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

正しい分類の平均 leave-one-out 確率は、ランダム化された分類器が $p_{i}$ を使用して観測値 i を正しく分類する確率 $S^{- i}$ です。

$\begin{array}{l} p_{i} = \sum_{j = 1, j \neq i}^{n} P (Ref (x_{i}) = x_{j} | S^{- i}) I (y_{i} = y_{j}) \end{array} = \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j},$

ここで

$y_{i j} = I (y_{i} = y_{j}) = {\begin{matrix} 1 & if y_{i} = y_{j,} \\ 0 & otherwise . \end{matrix}$

ランダム化された分類器を使用した正しい分類の平均 leave-one-out 確率は、次のように記述できます。

$F (w) = \frac{1}{n} \sum_{i = 1}^{n} p_{i} .$

$F (w)$ の右辺は重みベクトル $w$ に依存します。近傍成分分析の目標は、 $F (w)$ に関して $w$ を最大化することです。[1]で紹介されているように、fscnca は正則化された目標関数を使用します。

$\begin{array}{l} F (w) & = \frac{1}{n} \sum_{i = 1}^{n} p_{i} - λ \sum_{r = 1}^{p} w_{r}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} \underset{F_{i} (w)}{\underset{︸}{[\sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} - λ \sum_{r = 1}^{p} w_{r}^{2}]}} \\ = \frac{1}{n} \sum_{i = 1}^{n} F_{i} (w) \end{array},$

ここで、 $λ$ は正則化パラメーターです。正則化項により、 $w$ の重みの多くは 0 になります。

$p_{i j}$ のカーネルパラメーター $σ$ として 1 を選択すると、重みベクトル $w$ を求める問題は、与えられた $λ$ に対する次のような最小化問題として表すことができます。

$\hat{w} = \underset{w}{argmin} f (w) = \underset{w}{argmin} \frac{1}{n} \sum_{i = 1}^{n} f_{i} (w),$

ここで、f(w) = -F(w) および f_i(w) = -F_i(w) です。

ここで

$\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} = 1,$

また、目的関数に定数を加算しても最小値の引数は変化しないことに注意してください。したがって、定数 1 を加算して目的関数を書き直すことができます。

$\begin{matrix} \hat{w} = \underset{w}{argmin} {1 + f (w)} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} (1 - y_{i j}) + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) + λ \sum_{r = 1}^{p} w_{r}^{2}}, \end{matrix}$

ここで、損失関数は次のように定義されます。

$l (y_{i}, y_{j}) = {\begin{matrix} 1 & if y_{i} \neq y_{j,} \\ 0 & otherwise . \end{matrix}$

最小値の引数は、分類誤差を最小化する重みベクトルです。fscnca の呼び出しで名前と値のペアの引数 LossFunction を使用することでカスタムな損失関数が指定できます。

回帰の場合の NCA 特徴選択

関数 fsrnca は、回帰用に修正された NCA 特徴選択を実行します。n 個の観測値が与えられています。

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

分類問題との違いは、応答値 $y_{i} \in ℝ$ が連続的であるということだけです。この場合、目標は与えられた学習セット $S$ に対する応答 $y$ の予測です。

次のようなランダム化された回帰モデルがあるとします。

$x$ の ‘基準点‘ として点 ( $Ref (x)$ ) を $S$ から無作為に選択する。
$x$ における応答値を基準点 $Ref (x)$ の応答値と等しい値に設定する。

この場合も、点 $x_{j}$ が $x$ の基準点として $S$ から選択される確率 $P (Ref (x) = x_{j} | S)$ は次のようになります。

$\begin{array}{l} P (Ref (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

次に、このランダム化された回帰モデルの leave-one-out 適用について考えます。つまり、学習セット $S$ から点 $(x_{i}, y_{i})$ を除外した $S^{- i}$ のデータを使用して $x_{i}$ の応答を予測します。点 $x_{j}$ が $x_{i}$ の基準点として選択される確率は次のようになります。

$p_{i j} = P (Ref (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

$x_{i}$ の、ランダム化された回帰モデルが予測する応答値を ${\hat{y}}_{i}$ 、実際の応答を $y_{i}$ とします。また、 ${\hat{y}}_{i}$ と $y_{i}$ の相違を測定する損失関数を $l : ℝ^{2} \to ℝ$ とします。すると、 $l (y_{i}, {\hat{y}}_{i})$ の平均値は次のようになります。

$l_{i} = E (l (y_{i}, {\hat{y}}_{i}) | S^{- i}) = \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) .$

正則化項を加算すると、最小化のための目的関数は次のようになります。

$f (w) = \frac{1}{n} \sum_{i = 1}^{n} l_{i} + λ \sum_{r = 1}^{p} w_{r}^{2} .$

回帰の場合の NCA 用の既定の損失関数 $l (y_{i}, y_{j})$ は平均絶対偏差ですが、fsrnca を呼び出すときに名前と値のペアの引数 LossFunction を使用すると、カスタム関数を含め、他の損失関数を指定できます。

標準化の影響

正則化項により、無関係な予測子の重みがゼロになります。分類用または回帰用の NCA の目的関数では、すべての重みについて正則化パラメーターは $λ$ の 1 つだけです。これは、重みの大きさが互いに比較可能であることを必要とします。 $x_{i}$ の特徴ベクトル $S$ のスケールが異なる場合、別スケールの重みとなり、無意味になる可能性があります。この状況を回避するには、NCA の適用前に、ゼロ平均と単位標準偏差をもつように予測子を標準化します。予測子は、fscnca または fsrnca の呼び出し時に名前と値のペアの引数 'Standardize',true を使用して標準化できます。

正則化パラメーターの値の選択

正則化パラメーターの値は通常、独立のテストセットにおけるランダム化された NCA 分類器または回帰モデルの精度の計算によって選択する必要があります。単一のテストセットではなく交差検証を使用する場合は、交差検証分割全体で平均損失が最小になる $λ$ の値を選択します。例については、分類に NCA を使用して特徴量を判別するための正則化パラメーターの調整と回帰用の NCA の正則化パラメーターの調整を参照してください。

参照

[1] Yang, W., K. Wang, W. Zuo. "Neighborhood Component Feature Selection for High-Dimensional Data." Journal of Computers. Vol. 7, Number 1, January, 2012.

参考

fscnca | fsrnca | FeatureSelectionNCAClassification | FeatureSelectionNCARegression