Main Content

GPR モデルの回帰変数サブセット近似

回帰変数サブセット (SR) 近似法では、厳密 GPR 法のカーネル関数 k(x,xr|θ) を、与えられたアクティブ セット AN={1,2,...,n} に対する近似 k^SR(x,xr|θ,A) に置き換えます。パラメーター推定に SR 法を指定するには、fitrgp を呼び出すときに名前と値のペアの引数 'FitMethod','sr' を使用します。予測に SR 法を指定するには、fitrgp を呼び出すときに名前と値のペアの引数 'PredictMethod','sr' を使用します。

カーネル関数の近似

厳密 GPR モデルの場合、GPR で起こり得る予測は N 個の一連の関数 SN={k(x,xi|θ),i=1,2,,n} に依存します。ここで、N={1,2,...,n} はすべての観測値に対応する一連のインデックス、n は観測値の総数です。考え方は、より小さい関数のセット SA によってこれらの範囲の関数を近似する、というものです。ここで AN={1,2,...,n} は、アクティブ セットとして選択する、点のインデックスのサブセットです。SA={k(x,xj|θ),jA} を考えます。目的は、SN の要素を SA の要素の線形結合として近似することです。

SA の関数を使用した k(x,xr|θ) に対する近似を次のように仮定します。

k^(x,xr|θ)=jAcjrk(x,xj|θ),

ここで、cjrk(x,xr|θ) を近似するための線形結合の係数です。C という行列にすべての係数 cjr が含まれていると仮定します。すると、CC(j,r)=cjr となる |A|×n の行列になります。ソフトウェアは、次の誤差関数を最小化することにより、アクティブ セット AN={1,2,...,n} を使用して SN の要素に対する最適な近似を求めます。

E(A,C)=r=1nk(x,xr|θ)k^(x,xr|θ)2,

ここで は、カーネル関数 k に関連付けられた再生カーネル ヒルベルト空間 (RKHS) です[1][2]

E(A,C) を最小化する係数行列は、次のようになります。

C^A= K(XA,XA|θ)1K(XA,X|θ),

アクティブ セット AN={1,2,...,n} の要素を使用してカーネル関数を近似すると、次のようになります。

k^(x,xr|θ)=jAcjrk(x,xj|θ)= K(xT,XA|θ)C(:,r).

アクティブ セット AN={1,2,...,n} を使用するカーネル関数の SR 近似は、次のように定義されます。

k^SR(x,xr|θ,A)= K(xT,XA|θ)C^A(:,r)=K(xT,XA|θ)K(XA,XA|θ)1K(XA,xrT|θ)

K(X,X|θ) の SR 近似は次のようになります。

K^SR(X,X|θ,A)=  K(X,XA|θ) K(XA,XA|θ)1 K(XA,X|θ).

パラメーター推定

周辺対数尤度関数の K(X,X|θ)K^SR(X,X|θ,A) に置き換えると、SR 近似が得られます。

logPSR(y|X,β,θ,σ2,A)=12(yHβ)T[K^SR(X,X|θ,A)+σ2In]1(yHβ)N2log2π12log|K^SR(X,X|θ,A)+σ2In|

厳密法の場合と同じように、ソフトウェアは与えられた θ および σ2 に対して β の最適な推定である β^(θ,σ2) をはじめに計算することによりパラメーターを推定します。そして、β でプロファイルした周辺対数尤度を使用して θσ2 を推定します。与えられた θ および σ2 に対する β の SR 推定は、次のようになります。

β^SR(θ,σ2,A)=[HT[K^SR(X,X|θ,A)+σ2In]1H*]1HT[K^SR(X,X|θ,A)+σ2In]1y**,

ここで

[K^SR(X,X|θ,A)+σ2In]1=INσ2K(X,XA|θ)σ2AA1K(XA,X|θ)σ2,AA=K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2,*=HTHσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)Hσ2,**=HTyσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)yσ2.

β でプロファイルした周辺対数尤度に対する SR 近似は、次のようになります。

logPSR(y|X,β^SR(θ,σ2,A),θ,σ2,A)=12(yHβ^SR(θ,σ2,A))T[K^SR(X,X|θ,A)+σ2In]1(yHβ^SR(θ,σ2,A))N2log2π12log|K^SR(X,X|θ,A)+σ2In|.

予測

与えられた yX および xnew に対する ynew の分布の SR 近似は、次のようになります。

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μSR,σnew2+ΣSR),

ここで μSRΣSR は、厳密 GPR モデルの使用による予測で示されている μΣ の SR 近似です。

μSRΣSR は、k(x,xr|θ) をそれぞれ μΣ における SR 近似 k^SR(x,xr|θ,A) に置き換えることにより得られます。

つまり、

μSR=K^SR(xnewT,X|θ,A)(1)(K^SR(X,X|θ,A)+σ2 IN)1(2)(yHβ).

なぜならば

(1)=K(xnewT,XA|θ) K(XA,XA|θ)1K(XA,X|θ),

(2)=INσ2K(X,XA|θ)σ2[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ)σ2]1K(XA,X|θ)σ2, 

IN B( A+ B)1= A( A+ B)1 なので、μSR は次のように記述できます。

μSR= K(xnewT,XA|θ)[K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2]1K(XA,X|θ)σ2(yHβ).

同様に、ΣSR は次のように導かれます。

ΣSR=k^SR(xnew,xnew|θ,A)*K^SR(xnewT,X|θ,A)**(K^SR(X,X|θ,A)+σ2IN)1***K^SR(X,xnewT|θ,A)****.

なぜならば

* = K(xnewT,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

**=K(xnewT,XA|θ)K(XA,XA|θ)1K(XA,X|θ),***=(2) in the equation of μSR,

**** = K(X,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

ΣSR は次のように求められます。

SR=K(xnewT,XA|θ)[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ))σ2]1K(XA, xnewT|θ).

予測分散の問題

SR 法の欠点の 1 つは、選択したアクティブ セット AN={1,2,...,n} から大きく離れた領域で予測を行うと予測分散が不当に小さくなる可能性がある、ということです。学習セット X から大きく離れている新しい点 xnew で予測を行うとします。つまり、K(xnewT,X|θ)0 であると仮定します。

厳密 GPR の場合、与えられた yX および xnew に対する fnew の事後分布は、平均が μ=0、分散が Σ=k(xnew,xnew|θ) の正規分布になります。この値は、xnewX から離れている場合、データ (X,y)fnew に関する新しい情報を提供しないので、与えられた yX および xnew に対する fnew の事後分布は、与えられた xnew に対する事前分布 fnew (平均が 0、分散が k(xnew,xnew|θ) の正規分布) に帰着するはずである、という意味で正確です。

SR 近似の場合、xnewX から離れていると (したがって XA からも離れていると)、μSR=0 および ΣSR=0 になります。したがって、この極端なケースでは、μSR は厳密 GPR の μ に一致しますが、ΣSR は厳密 GPR の Σ と比較して不当に小さくなります。

完全独立条件近似法は、この問題を回避するために役立てることができます。

参照

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

[2] Smola, A. J. and B. Schökopf. "Sparse greedy matrix approximation for machine learning." In Proceedings of the Seventeenth International Conference on Machine Learning, 2000.

参考

|

関連するトピック