厳密 GPR 法

ガウス過程回帰 (GPR) モデルの応答 y のインスタンスは、次のようにモデル化できます。

$P (y_{i} | f (x_{i}), x_{i}) ~ N (y_{i} | h {(x_{i})}^{T} β + f (x_{i}), σ^{2})$

したがって、GPR モデルから新しいデータを予測するには、以下が必要です。

固定基底関数の係数ベクトル $β$ が既知である。
カーネルパラメーターまたはハイパーパラメーター $θ$ が与えられた場合に、任意の $x$ および $x^{'}$ について共分散関数 $k (x, x^{'} | θ)$ を評価できる。
密度 $P (y_{i} | f (x_{i}), x_{i})$ に現れるノイズ分散 $σ^{2}$ が既知である。

つまり、はじめにデータ $(X, y)$ から $β$ 、 $θ$ および $σ^{2}$ を推定する必要があります。

パラメーター推定

GPR モデルのパラメーター $β$ 、 $θ$ および $σ^{2}$ を推定するアプローチの 1 つに、 $β$ 、 $θ$ および $σ^{2}$ の関数として尤度 $P (y | X)$ を最大化するというものがあります[1]。つまり、 $\hat{β}$ 、 $\hat{θ}$ および ${\hat{σ}}^{2}$ がそれぞれ $β$ 、 $θ$ および $σ^{2}$ の推定値である場合、次のようになります。

$\hat{β}, \hat{θ}, {\hat{σ}}^{2} = \underset{β, θ, σ^{2}}{arg max} \log P (y | X, β, θ, σ^{2}) .$

なぜならば

$P (y | X) = P (y | X, β, θ, σ^{2}) = N (y | H β, K (X, X | θ) + σ^{2} I_{n}),$

周辺対数尤度関数は、次のようになります。

$\begin{array}{l} \log P (y | X, β, θ, σ^{2}) = & - \frac{1}{2} {(y - H β)}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H β) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | . \end{array}$

ここで、 $H$ は明示的な基底関数のベクトル、 $K (X, X | θ)$ は共分散関数行列です (詳細についてはガウス過程回帰モデルを参照してください)。

パラメーターを推定するため、ソフトウェアは与えられた $θ$ および $σ^{2}$ に対して対数尤度関数を $β$ に関して最大化する $\hat{β} (θ, σ^{2})$ をはじめに計算します。そして、この推定を使用して、 $β$ でプロファイルした尤度を計算します。

$\log {P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2})} .$

$θ$ および $σ^{2}$ が与えられた場合、 $β$ の推定値は次のようになります。

$\hat{β} (θ, σ^{2}) = {[H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} H]}^{- 1} H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} y .$

したがって、 $β$ でプロファイルした対数尤度は、次のようになります。

$\begin{array}{l} \log P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2}) = & - \frac{1}{2} {(y - H \hat{β} (θ, σ^{2}))}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H \hat{β} (θ, σ^{2})) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | \end{array}$

そして、ソフトウェアは $β$ でプロファイルした対数尤度を $θ$ および $σ^{2}$ に対して最大化して推定値を求めます。

予測

既知のパラメーターを使用して GPR モデルから確率的な予測を行うには、密度 $P (y_{n e w} | y, X, x_{n e w})$ が必要です。条件付き確率の定義を使用すると、次のように記述できます。

$P (y_{n e w} | y, X, x_{n e w}) = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} .$

分子の同時密度を求めるには、それぞれ $y_{n e w}$ および $y$ に対応する潜在的変数 $f_{n e w}$ および $f$ を導入する必要があります。すると、 $y_{n e w}$ 、 $y$ 、 $f_{n e w}$ 、および $f$ の同時分布を使用して $P (y_{n e w}, y | X, x_{n e w})$ を計算できます。

$\begin{array}{l} \begin{array}{l} P (y_{n e w}, y | X, x_{n e w}) & = \int \int P (y_{n e w}, y, f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} \\ = \int \int P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) P (f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} . \end{array} \end{array}$

ガウス過程モデルでは、対応する潜在的変数 $f_{i}$ および特徴ベクトル $x_{i}$ のみに各応答 $y_{i}$ が依存すると仮定します。 $P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w})$ を条件付き密度の積として記述し、この仮定に基づくと、次が得られます。

$\begin{array}{l} P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) \prod_{i = 1}^{n} P (y_{i} | f (x_{i}), x_{i}) \end{array} .$

$y_{n e w}$ に関して積分すると、結果は $f$ と $X$ のみに依存します。

$\begin{array}{l} P (y | f, X) = \prod_{i = 1}^{n} P (y_{i} | f_{i}, x_{i}) = \prod_{i = 1}^{n} N (y_{i} {| h (x_{i})}^{T} β + f_{i}, σ^{2}) \end{array} .$

したがって

$P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) .$

条件付き確率の定義を再び使用します。

$P (f_{n e w}, f | X, x_{n e w}) = P (f_{n e w} | f, X, x_{n e w}) * P (f | X, x_{n e w}),$

$P (y_{n e w}, y | X, x_{n e w})$ は、次のように記述できます。

$P (y_{n e w}, y | X, x_{n e w}) = \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) P (f_{n e w} | f, X, x_{n e w}) P (f | X, x_{n e w}) d f d f_{n e w} .$

次の事実を使用します。

$P (f | X, x_{n e w}) = P (f | X)$

および

$P (y | f, X) P (f | X) = P (y, f | X) = P (f | y, X) P (y | X),$

すると、 $P (y_{n e w}, y | X, x_{n e w})$ を次のように書き直すことができます。

$P (y_{n e w}, y | X, x_{n e w}) = P (y | X) \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (f | y, X) P (f_{n e w} | f, X, x_{n e w}) d f d f_{n e w} .$

次のように表すこともできます。

$P (y | X, x_{n e w}) = P (y | X) .$

したがって、必要な密度 $P (y_{n e w} | y, X, x_{n e w})$ は次のようになります。

$\begin{array}{l} P (y_{n e w} | y, X, x_{n e w}) & = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X)} \\ = \int \int \underset{(1)}{\underset{︸}{P (y_{n e w} | f_{n e w}, x_{n e w})}} \underset{(2)}{\underset{︸}{P (f | y, X)}} \underset{(3)}{\underset{︸}{P (f_{n e w} | f, X, x_{n e w})}} d f d f_{n e w} . \end{array}$

次のように表すことができます。

$(1) P (y_{n e w} | f_{n e w}, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + f_{n e w}, σ_{n e w}^{2})$

$(2) P (f | y, X) = N (f | \frac{1}{σ^{2}} {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1} (y - H β), {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1})$

$\begin{array}{l} (3) \begin{array}{l} P (f_{n e w} | f, X, x_{n e w}) = N (f_{n e w} | K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} f, Δ) \end{array}, \\ where Δ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} K (X, x_{n e w}^{T}) . \end{array}$

積分と必要な代数計算を行うと、 $y$ と $X$ が与えられた場合の新しい点 $x_{n e w}$ における新しい応答 $y_{n e w}$ の密度は次のようになります。

$P (y_{n e w} | y, X, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + μ, σ_{n e w}^{2} + Σ),$

ここで

$μ = K (x_{n e w}^{T}, X) \underset{α}{\underset{︸}{{(K (X, X) + σ^{2} I_{n})}^{- 1} (y - H β)}}$

および

$Σ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) {(K (X, X) + σ^{2} I_{n})}^{- 1} K (X, x_{n e w}^{T}) .$

与えられた $y$ および $X$ とパラメーター $β$ 、 $θ$ および $σ^{2}$ に対して、新しい点 $x_{n e w}$ における予測 $y_{n e w}$ の期待値は次のようになります。

$\begin{array}{l} E (y_{n e w} | y, X, x_{n e w}, β, θ, σ^{2}) & = h {(x_{n e w})}^{T} β + K (x_{n e w}^{T}, X | θ) α \\ = h {(x_{n e w})}^{T} β + \sum_{i = 1}^{n} α_{i} k (x_{n e w}, x_{i} | θ), \end{array}$

ここで

$α = {(K (X, X | θ) + σ^{2} I_{n})}^{- 1} (y - H β) .$

厳密なパラメーター推定および予測の計算量

(FitMethod が 'Exact' の場合に) 厳密法を使用して GPR モデルに学習をさせるには、n 行 n 列のカーネル行列 $K (X, X)$ の逆行列を計算する必要があります。 $K (X, X)$ をメモリに格納しなければならないので、このステップで必要なメモリのスケールは O(n²) です。 $\log P (y | X)$ を 1 回評価するスケールは O(n³) です。したがって、計算量は O(kn³) になります。ここで、k は最大化に必要な関数評価の数、n は観測値の数です。

新しいデータの予測には、 $\hat{α}$ の計算が含まれます。予測区間が必要な場合、後で使用する $(K (X, X) + σ^{2} I_{n})$ のコレスキー因子の計算および格納もこのステップに含まれる可能性があります。 $\hat{α}$ を直接計算すると、このステップの計算量は O(n³) になり、O(n²) のメモリが必要になります。

したがって、n が大きい場合、パラメーターの推定または予測の計算には非常に時間がかかる可能性があります。通常、近似法では、n 行 n 列の行列の逆行列を計算しないように計算を再編成します。使用可能な近似法については、ページの最後にある関連リンクを参照してください。

参照

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

参考

fitrgp | predict

厳密 GPR 法

パラメーター推定

予測

厳密なパラメーター推定および予測の計算量

参照

参考

関連するトピック