カーネル (共分散) 関数のオプション

教師あり学習では、予測子の値 $x_{i}$ が近い点は必然的に応答 (ターゲット) の値 $y_{i}$ が近くなることが予想されます。ガウス過程では、共分散関数がこの類似性を表します。[1]共分散関数は、2 つの潜在的変数 $f (x_{i})$ および $f (x_{j})$ の間の共分散を指定します。ここで、 $x_{i}$ と $x_{j}$ はどちらも d 行 1 列のベクトルです。言い換えると、ある点 $x_{i}$ における応答に対して別の点 $x_{j}$ における応答がどのような影響を与えるかを決定します。ここで、i ≠ j および i = 1, 2, ..., n です。共分散関数 $k (x_{i}, x_{j})$ は、各種のカーネル関数によって定義できます。そして、ベクトル $θ$ に含まれているカーネルパラメーターに関してパラメーター表現できます。したがって、共分散関数は $k (x_{i}, x_{j} | θ)$ と表すことができます。

多くの標準的なカーネル関数で、カーネルパラメーターは信号標準偏差 $σ_{f}$ と特性長スケール $σ_{l}$ に基づきます。特性長スケールは、入力値 $x_{i}$ がどのくらい応答値から離れると無相関になるかを簡潔に定義します。 $σ_{l}$ と $σ_{f}$ は、どちらも 0 より大きい必要があります。これは、次のように制約のないパラメーターベクトル $θ$ によって強制できます。

$θ_{1} = \log σ_{l}, θ_{2} = \log σ_{f} .$

"各予測子について同じ特性長スケールをもつ" 組み込みカーネル (共分散) 関数には、次のようなものがあります。

二乗指数カーネル
これは最も一般的に使用される共分散関数の 1 つで、fitrgp の既定オプションです。二乗指数カーネル関数は、次のように定義されます。

$k (x_{i}, x_{j} | θ) = σ_{f}^{2} exp [- \frac{1}{2} \frac{{(x_{i} - x_{j})}^{T} (x_{i} - x_{j})}{σ_{l}^{2}}] .$
ここで、 $σ_{l}$ は特性長スケール、 $σ_{f}$ は信号標準偏差です。
指数カーネル
指数カーネル関数は、名前と値のペアの引数 'KernelFunction','exponential' を使用して指定できます。この共分散関数は次のように定義されます。

$k (x_{i}, x_{j} | θ) = σ_{f}^{2} \exp (- \frac{r}{σ_{l}}),$
ここで、 $σ_{l}$ は特性長スケール、

$\begin{array}{l} r = \sqrt{{(x_{i} - x_{j})}^{T} (x_{i} - x_{j})} \end{array}$
は $x_{i}$ と $x_{j}$ の間のユークリッド距離です。
Matern 3/2
Matern 3/2 カーネル関数は、名前と値のペアの引数 'KernelFunction','matern32' を使用して指定できます。この共分散関数は次のように定義されます。

$\begin{array}{l} k (x_{i}, x_{j} | θ) = σ_{f}^{2} (1 + \frac{\sqrt{3} r}{σ_{l}}) exp (- \frac{\sqrt{3} r}{σ_{l}}) \end{array},$
ここで、次のようになります。

$\begin{array}{l} r = \sqrt{{(x_{i} - x_{j})}^{T} (x_{i} - x_{j})} \end{array}$
これは、 $x_{i}$ と $x_{j}$ の間のユークリッド距離です。
Matern 5/2
Matern 5/2 カーネル関数は、名前と値のペアの引数 'KernelFunction','matern52' を使用して指定できます。Matern 5/2 共分散関数は次のように定義されます。

$\begin{array}{l} k (x_{i}, x_{j}) = σ_{f}^{2} (1 + \frac{\sqrt{5} r}{σ_{l}} + \frac{5 r^{2}}{3 σ_{l}^{2}}) exp (- \frac{\sqrt{5} r}{σ_{l}}) \end{array},$
ここで、次のようになります。

$\begin{array}{l} r = \sqrt{{(x_{i} - x_{j})}^{T} (x_{i} - x_{j})} \end{array}$
これは、 $x_{i}$ と $x_{j}$ の間のユークリッド距離です。
有理二次カーネル
有理二次カーネル関数は、名前と値のペアの引数 'KernelFunction','rationalquadratic' を使用して指定できます。この共分散関数は次のように定義されます。
$k (x_{i}, x_{j} | θ) = σ_{f}^{2} {(1 + \frac{r^{2}}{2 α σ_{l}^{2}})}^{- α},$
ここで、 $σ_{l}$ は特性長スケール、 $α$ は正の値のスケール混合パラメーター、

$\begin{array}{l} r = \sqrt{{(x_{i} - x_{j})}^{T} (x_{i} - x_{j})} \end{array}$
は $x_{i}$ と $x_{j}$ の間のユークリッド距離です。

各予測子 m について別々の特性長スケール $σ_{m}^{}$ を使用できます (m = 1, 2, ...,d)。各予測子について特性長スケールが異なる組み込みカーネル (共分散) 関数は、関連度自動決定 (ARD) [2]を実装します。この場合、制約のないパラメーター表現 $θ$ は次のようになります。

$\begin{array}{l} θ_{m} = \log σ_{m}, for m = 1, 2, ..., d \\ θ_{d + 1} = \log σ_{f} . \end{array}$

"各予測子について異なる特性長スケールをもつ" 組み込みカーネル (共分散) 関数には、次のようなものがあります。

ARD 二乗指数カーネル
このカーネル関数は、名前と値のペアの引数 'KernelFunction','ardsquaredexponential' を使用して指定できます。この共分散関数は、各予測子について特性長スケールが異なる二乗指数カーネル関数です。これは、次のように定義されます。

$k (x_{i}, x_{j} | θ) = σ_{f}^{2} exp [- \frac{1}{2} \sum_{m = 1}^{d} \frac{{(x_{i m} - x_{j m})}^{2}}{σ_{m}^{2}}] .$
ARD 指数カーネル
このカーネル関数は、名前と値のペアの引数 'KernelFunction','ardexponential' を使用して指定できます。この共分散関数は、各予測子について特性長スケールが異なる指数カーネル関数です。これは次のように定義されます。
$k (x_{i}, x_{j} | θ) = σ_{f}^{2} \exp (- r),$
ここで
$r = \sqrt{\sum_{m = 1}^{d} \frac{{(x_{i m} - x_{j m})}^{2}}{σ_{m}^{2}}} .$
ARD Matern 3/2
このカーネル関数は、名前と値のペアの引数 'KernelFunction','ardmatern32' を使用して指定できます。この共分散関数は、各予測子について特性長スケールが異なる Matern 3/2 カーネル関数です。これは、次のように定義されます。

$k (x_{i}, x_{j} | θ) = σ_{f}^{2} (1 + \sqrt{3} r) exp (- \sqrt{3} r),$
ここで、次のようになります。

$r = \sqrt{\sum_{m = 1}^{d} \frac{{(x_{i m} - x_{j m})}^{2}}{σ_{m}^{2}}} .$
ARD Matern 5/2
このカーネル関数は、名前と値のペアの引数 'KernelFunction','ardmatern52' を使用して指定できます。この共分散関数は、各予測子について特性長スケールが異なる Matern 5/2 カーネル関数です。これは、次のように定義されます。

$\begin{array}{l} k (x_{i}, x_{j} | θ) = σ_{f}^{2} (1 + \sqrt{5} r + \frac{5}{3} r^{2}) exp (- \sqrt{5} r) \end{array},$
ここで、次のようになります。

$r = \sqrt{\sum_{m = 1}^{d} \frac{{(x_{i m} - x_{j m})}^{2}}{σ_{m}^{2}}} .$
ARD 有理二次カーネル
このカーネル関数は、名前と値のペアの引数 'KernelFunction','ardrationalquadratic' を使用して指定できます。この共分散関数は、各予測子について特性長スケールが異なる有理二次カーネル関数です。これは次のように定義されます。
$k (x_{i}, x_{j} | θ) = σ_{f}^{2} {(1 + \frac{1}{2 α} \sum_{m = 1}^{d} \frac{{(x_{i m} - x_{j m})}^{2}}{σ_{m}^{2}})}^{- α} .$

カーネル関数は、fitrgp を呼び出すときに名前と値のペアの引数 KernelFunction を使用して指定できます。組み込みカーネルパラメーターオプションのいずれかを指定するか、カスタム関数を指定することができます。組み込みカーネル関数にカーネルパラメーターの初期値を指定する場合、信号標準偏差の初期値と特性長スケールを数値ベクトルとして入力します。カスタムカーネル関数にカーネルパラメーターの初期値を指定する場合、非制約パラメーター表現ベクトル $θ$ の初期値を入力します。fitrgp は、組み込みカーネル関数を使用する場合はパラメーター推定に解析微分を使用しますが、カスタムカーネル関数を使用する場合は数値微分を使用します。

参照

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

[2] Neal, R. M. Bayesian Learning for Neural Networks. Springer, New York. Lecture Notes in Statistics, 118, 1996.

参考

fitrgp | RegressionGP

カーネル (共分散) 関数のオプション

参照

参考

トピック