kfoldLoss

交差検証済みの線形回帰モデルの回帰損失

構文

L = kfoldLoss(CVMdl)

L = kfoldLoss(CVMdl,Name=Value)

説明

L = kfoldLoss(CVMdl) は、交差検証済みの線形回帰モデル CVMdl によって取得した交差検証平均二乗誤差 (MSE) を返します。つまり、他のすべての観測値を使用して学習を行うときにホールドアウトする観測値の回帰損失を、kfoldLoss はすべての分割について推定します。

L には、CVMdl を構成する線形回帰モデルの各正則化強度に対する回帰損失が格納されます。

例

L = kfoldLoss(CVMdl,Name=Value) は、1 つ以上の名前と値の引数によって指定された追加オプションを使用します。たとえば、損失の計算に使用する分割や回帰損失関数を指定します。

例

すべて折りたたむ

k 分割平均二乗誤差の推定

ライブスクリプトを開く

次のモデルにより、10000 個の観測値をシミュレートします。

$y = x_{100} + 2 x_{200} + e .$

$X = {x_{1}, . . ., x_{1000}}$ は、10% の要素が非ゼロ標準正規である 10000 行 1000 列のスパース行列です。
e は、平均が 0、標準偏差が 0.3 のランダムな正規誤差です。

rng(1) % For reproducibility
n = 1e4;
d = 1e3;
nz = 0.1;
X = sprandn(n,d,nz);
Y = X(:,100) + 2*X(:,200) + 0.3*randn(n,1);

SVM 学習器を使用する線形回帰モデルを交差検証します。

rng(1); % For reproducibility 
CVMdl = fitrlinear(X,Y,'CrossVal','on');

CVMdl は RegressionPartitionedLinear モデルです。既定では、10 分割交差検証が実行されます。'KFold' 名前と値のペアの引数を使用して分割数を変更できます。

テスト標本の MSE の平均を推定します。

mse = kfoldLoss(CVMdl)

mse = 
0.1735

または、名前と値のペアの引数 'Mode','individual' を kfoldLoss で指定することにより、分割ごとの MSE を取得できます。

カスタム回帰損失の指定

ライブスクリプトを開く

k 分割平均二乗誤差の推定で説明されているようにデータをシミュレートします。

rng(1) % For reproducibility
n = 1e4;
d = 1e3;
nz = 0.1;
X = sprandn(n,d,nz); 
Y = X(:,100) + 2*X(:,200) + 0.3*randn(n,1);
X = X'; % Put observations in columns for faster training

10 分割の交差検証を使用して線形回帰モデルを交差検証します。SpaRSA を使用して目的関数を最適化します。

CVMdl = fitrlinear(X,Y,'CrossVal','on','ObservationsIn','columns',...
    'Solver','sparsa');

CVMdl は RegressionPartitionedLinear モデルです。このモデルに含まれている Trained プロパティは、学習セットを使用して学習を行った RegressionLinear モデルが格納されている 10 行 1 列の cell 配列です。

次の Huber 損失 ( $δ$ = 1) を評価する無名関数を作成します。

$L = \frac{1}{\sum w_{j}} \sum_{j = 1}^{n} w_{j} ℓ_{j},$

ここで

$\begin{array}{l} ℓ_{j} = {\begin{array}{cccccccccccccccccccc} 0.5 {e_{j}}_{}^{ˆ}^{2}; \\ | {e_{j}}_{}^{ˆ} | - 0.5; \end{array} \begin{array}{cccccccccccccccccccc} | {e_{j}}_{}^{ˆ} | \leq 1 \\ | {e_{j}}_{}^{ˆ} | > 1 \end{array} . \end{array}$

${e_{j}}_{}^{ˆ}$ は観測値 j の残差です。カスタム損失関数は特定の形式で記述しなければなりません。カスタム損失関数の記述に関するルールについては、名前と値のペアの引数 'LossFun' を参照してください。

huberloss = @(Y,Yhat,W)sum(W.*((0.5*(abs(Y-Yhat)<=1).*(Y-Yhat).^2) + ...
    ((abs(Y-Yhat)>1).*abs(Y-Yhat)-0.5)))/sum(W);

分割全体に対する平均の Huber 損失を推定します。また、各分割の Huber 損失も取得します。

mseAve = kfoldLoss(CVMdl,'LossFun',huberloss)

mseAve = 
-0.4448

mseFold = kfoldLoss(CVMdl,'LossFun',huberloss,'Mode','individual')

mseFold = 10×1

   -0.4454
   -0.4473
   -0.4453
   -0.4469
   -0.4434
   -0.4434
   -0.4465
   -0.4430
   -0.4438
   -0.4426

交差検証の使用による適切な LASSO ペナルティの特定

ライブスクリプトを開く

最小二乗を使用する線形回帰モデルに適した LASSO ペナルティの強度を決定するため、5 分割の交差検証を実装します。

次のモデルにより、10000 個の観測値をシミュレートします。

$y = x_{100} + 2 x_{200} + e .$

$X = {x_{1}, . . ., x_{1000}}$ は、10% の要素が非ゼロ標準正規である 10000 行 1000 列のスパース行列です。
e は、平均が 0、標準偏差が 0.3 のランダムな正規誤差です。

rng(1) % For reproducibility
n = 1e4;
d = 1e3;
nz = 0.1;
X = sprandn(n,d,nz);
Y = X(:,100) + 2*X(:,200) + 0.3*randn(n,1);

$1 0^{- 5}$ ～ $1 0^{- 1}$ の範囲で対数間隔で配置された 15 個の正則化強度を作成します。

Lambda = logspace(-5,-1,15);

モデルを交差検証します。実行速度を向上させるため、予測子データを転置し、観測値が列単位であることを指定します。SpaRSA を使用して目的関数を最適化します。

X = X'; 
CVMdl = fitrlinear(X,Y,'ObservationsIn','columns','KFold',5,'Lambda',Lambda,...
    'Learner','leastsquares','Solver','sparsa','Regularization','lasso');

numCLModels = numel(CVMdl.Trained)

numCLModels = 
5

CVMdl は RegressionPartitionedLinear モデルです。fitrlinear は 5 分割の交差検証を実装するので、各分割について学習させる 5 つの RegressionLinear モデルが CVMdl に格納されます。

1 番目の学習済み線形回帰モデルを表示します。

Mdl1 = CVMdl.Trained{1}

Mdl1 = 
  RegressionLinear
         ResponseName: 'Y'
    ResponseTransform: 'none'
                 Beta: [1000×15 double]
                 Bias: [-0.0049 -0.0049 -0.0049 -0.0049 -0.0049 -0.0048 -0.0044 -0.0037 -0.0030 -0.0031 -0.0033 -0.0036 -0.0041 -0.0051 -0.0071]
               Lambda: [1.0000e-05 1.9307e-05 3.7276e-05 7.1969e-05 1.3895e-04 2.6827e-04 5.1795e-04 1.0000e-03 0.0019 0.0037 0.0072 0.0139 0.0268 0.0518 0.1000]
              Learner: 'leastsquares'


  Properties, Methods

Mdl1 は RegressionLinear モデルオブジェクトです。fitrlinear は最初の 4 つの分割に対して学習を行うことにより Mdl1 を構築しました。Lambda は正則化強度のシーケンスなので、Mdl1 はそれぞれが Lambda の各正則化強度に対応する 15 個のモデルであると考えることができます。

交差検証された MSE を推定します。

mse = kfoldLoss(CVMdl);

Lambda の値が大きくなると、予測子変数がスパースになります。これは回帰モデルの品質として優れています。データセット全体を使用し、モデルの交差検証を行ったときと同じオプションを指定して、各正則化強度について線形回帰モデルに学習をさせます。モデルごとに非ゼロの係数を特定します。

Mdl = fitrlinear(X,Y,'ObservationsIn','columns','Lambda',Lambda,...
    'Learner','leastsquares','Solver','sparsa','Regularization','lasso');
numNZCoeff = sum(Mdl.Beta~=0);

同じ図に、各正則化強度についての交差検証された MSE と非ゼロ係数の頻度をプロットします。すべての変数を対数スケールでプロットします。

figure
[h,hL1,hL2] = plotyy(log10(Lambda),log10(mse),...
    log10(Lambda),log10(numNZCoeff)); 
hL1.Marker = 'o';
hL2.Marker = 'o';
ylabel(h(1),'log_{10} MSE')
ylabel(h(2),'log_{10} nonzero-coefficient frequency')
xlabel('log_{10} Lambda')
hold off

$Figure contains 2 axes objects. Axes object 1 with xlabel log_{10} Lambda, ylabel log_{10} MSE contains an object of type line. Axes object 2 with ylabel log_{10} nonzero-coefficient frequency contains an object of type line.$

予測子変数のスパース性と MSE の低さのバランスがとれている正則化強度 (Lambda(10) など) のインデックスを選択します。

idxFinal = 10;

最小の MSE に対応するモデルを抽出します。

MdlFinal = selectModels(Mdl,idxFinal)

MdlFinal = 
  RegressionLinear
         ResponseName: 'Y'
    ResponseTransform: 'none'
                 Beta: [1000×1 double]
                 Bias: -0.0050
               Lambda: 0.0037
              Learner: 'leastsquares'


  Properties, Methods

idxNZCoeff = find(MdlFinal.Beta~=0)

idxNZCoeff = 2×1

   100
   200

EstCoeff = Mdl.Beta(idxNZCoeff)

EstCoeff = 2×1

    1.0051
    1.9965

MdlFinal は、1 つの正則化強度がある RegressionLinear モデルです。非ゼロ係数 EstCoeff は、データをシミュレートした係数に近くなっています。

入力引数

すべて折りたたむ

`CVMdl` — 交差検証済みの線形回帰モデル
`RegressionPartitionedLinear` モデルオブジェクト

交差検証済み線形回帰モデル。RegressionPartitionedLinear モデルオブジェクトとして指定します。RegressionPartitionedLinear モデルを作成するには、fitrlinear を使用し、交差検証用の名前と値のペアの引数のいずれか 1 つ (CrossVal など) を指定します。

推定値を取得するため、kfoldLoss は線形回帰モデルの交差検証に使用したものと同じデータ (X および Y) を適用します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: kfoldLoss(CVMdl,Folds=[1 2 3 5]) は、回帰損失の計算に 1 番目、2 番目、3 番目、および 5 番目の分割を使用し、4 番目の分割は除外するように指定します。

`Folds` — 応答の予測に使用する分割のインデックス
`1:CVMdl.KFold` (既定値) | 正の整数の数値ベクトル

応答の予測に使用する分割のインデックス。正の整数の数値ベクトルとして指定します。Folds の要素は 1 から CVMdl.KFold の範囲でなければなりません。

例: Folds=[1 4 10]

データ型: single | double

`LossFun` — 損失関数
`"mse"` (既定値) | `"epsiloninsensitive"` | 関数ハンドル

損失関数。組み込みの損失関数名または関数ハンドルとして指定します。

次の表は、使用可能な損失関数の一覧です。対応する文字ベクトルまたは string スカラーを使用して、いずれかを指定します。また、この表では $f (x) = x β + b .$ です。
- β は p 個の係数のベクトルです。
- x は p 個の予測子変数による観測値です。
- b はスカラーバイアスです。
値説明
"epsiloninsensitive" イプシロン不感応損失: $ℓ [y, f (x)] = \max [0, | y - f (x) | - ε]$
"mse" MSE: $ℓ [y, f (x)] = {[y - f (x)]}^{2}$
"epsiloninsensitive" は SVM 学習器のみに適しています。
関数ハンドル表記を使用して独自の関数を指定します。
n を X の観測値数とします。使用する関数のシグネチャは次のようになっていなければなりません。
```
lossvalue = lossfun(Y,Yhat,W)
```
ここで
- 出力引数 lossvalue はスカラーです。
- 関数名 (lossfun) を選択します。
- Y は観測された応答の n 次元ベクトルです。kfoldLoss には入力引数 Y で Y を渡します。
- Yhat は予測された応答の n 次元ベクトルです。これは predict の出力と同様です。
- W は、観測値の重みの n 行 1 列の数値ベクトルです。
LossFun=@lossfun を使用して独自の関数を指定します。

値	説明
`"epsiloninsensitive"`	イプシロン不感応損失: $ℓ [y, f (x)] = \max [0, \| y - f (x) \| - ε]$
`"mse"`	MSE: $ℓ [y, f (x)] = {[y - f (x)]}^{2}$

例: LossFun="epsiloninsensitive"

データ型: char | string | function_handle

`Mode` — 損失の集約レベル
`"average"` (既定値) | `"individual"`

損失の集約レベル。"average" または "individual" として指定します。

値	説明
`"average"`	分割全体で平均した損失を返す
`"individual"`	各分割について損失を返す

例: Mode="individual"

`PredictionForMissingValue` — 予測子に欠損値がある観測値に使用する予測した応答値
`"median"` | `"mean"` | `"omitted"` | 数値スカラー

R2023b 以降

予測子に欠損値がある観測値に使用する予測した応答値。"median"、"mean"、"omitted"、または数値スカラーとして指定します。

値	説明
`"median"`	`kfoldLoss` は、予測子に欠損値がある観測値について予測した応答値として、学習分割データ内の観測された応答値の中央値を使用します。
`"mean"`	`kfoldLoss` は、予測子に欠損値がある観測値について予測した応答値として、学習分割データ内の観測された応答値の平均値を使用します。
`"omitted"`	`kfoldLoss` は、予測子に欠損値がある観測値を損失の計算から除外します。
数値スカラー	`kfoldLoss` は、予測子に欠損値がある観測値について予測した応答値として、この値を使用します。

観測された応答値または観測値の重みが観測値にない場合、その観測値は kfoldLoss による損失の計算に使用されません。

例: PredictionForMissingValue="omitted"

データ型: single | double | char | string

出力引数

すべて折りたたむ

`L` — 交差検証回帰損失
数値スカラー | 数値ベクトル | 数値行列

交差検証回帰損失。数値スカラー、ベクトルまたは行列として返されます。L の解釈は LossFun によって異なります。

交差検証済みモデルの正則化強度の数 (numel(CVMdl.Trained{1}.Lambda) に格納) を R、分割数 (CVMdl.KFold に格納) を F とします。

Mode が 'average' の場合、L は 1 行 R 列のベクトルになります。L(j) は、正則化強度 j を使用する交差検証済みモデルのすべての分割に対する平均回帰損失です。
それ以外の場合、L は F 行 R 列の行列になります。L(i,j) は、正則化強度 j を使用する交差検証済みモデルの分割 i に対する回帰損失です。

kfoldLoss は L を推定するため、CVMdl を作成したデータを使用します (X と Y を参照)。

拡張機能

すべて展開する

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2016a で導入

すべて展開する

R2024a: GPU 配列の指定 (Parallel Computing Toolbox が必要)

kfoldLoss は GPU 配列を完全にサポートします。

R2023b: 予測子に欠損値がある観測値に使用する予測した応答値の指定

R2023b 以降で損失を予測または計算する際、一部の回帰モデルでは、予測子に欠損値がある観測値について予測した応答値を指定できます。名前と値の引数 PredictionForMissingValue を指定して、予測値として数値スカラー、学習セットの中央値、または学習セットの平均値を使用します。損失を計算するときに、予測子に欠損値がある観測値を省略するように指定することもできます。

次の表は、名前と値の引数 PredictionForMissingValue をサポートするオブジェクト関数の一覧です。既定では、これらの関数は、予測子に欠損値がある観測値について予測した応答値として、学習セットの中央値を使用します。

モデルタイプ	モデルオブジェクト	オブジェクト関数
ガウス過程回帰 (GPR) モデル	`RegressionGP`, `CompactRegressionGP`	`loss`, `predict`, `resubLoss`, `resubPredict`
ガウス過程回帰 (GPR) モデル	`RegressionPartitionedGP`	`kfoldLoss`, `kfoldPredict`
ガウスカーネル回帰モデル	`RegressionKernel`	`loss`, `predict`
ガウスカーネル回帰モデル	`RegressionPartitionedKernel`	`kfoldLoss`, `kfoldPredict`
線形回帰モデル	`RegressionLinear`	`loss`, `predict`
線形回帰モデル	`RegressionPartitionedLinear`	`kfoldLoss`, `kfoldPredict`
ニューラルネットワーク回帰モデル	`RegressionNeuralNetwork`, `CompactRegressionNeuralNetwork`	`loss`, `predict`, `resubLoss`, `resubPredict`
ニューラルネットワーク回帰モデル	`RegressionPartitionedNeuralNetwork`	`kfoldLoss`, `kfoldPredict`
サポートベクターマシン (SVM) 回帰モデル	`RegressionSVM`, `CompactRegressionSVM`	`loss`, `predict`, `resubLoss`, `resubPredict`
サポートベクターマシン (SVM) 回帰モデル	`RegressionPartitionedSVM`	`kfoldLoss`, `kfoldPredict`

以前のリリースでは、上記の回帰モデル関数 loss および predict は、予測子に欠損値がある観測値について予測した応答値として NaN を使用していました。予測子に欠損値がある観測値は、予測と損失の再代入 ("resub") と交差検証 ("kfold") の計算で省略されていました。

参考

RegressionPartitionedLinear | RegressionLinear | kfoldPredict | loss

kfoldLoss

構文

説明

例

k 分割平均二乗誤差の推定

カスタム回帰損失の指定

交差検証の使用による適切な LASSO ペナルティの特定

入力引数

CVMdl — 交差検証済みの線形回帰モデル RegressionPartitionedLinear モデル オブジェクト

名前と値の引数

Folds — 応答の予測に使用する分割のインデックス 1:CVMdl.KFold (既定値) | 正の整数の数値ベクトル

LossFun — 損失関数 "mse" (既定値) | "epsiloninsensitive" | 関数ハンドル

Mode — 損失の集約レベル "average" (既定値) | "individual"

PredictionForMissingValue — 予測子に欠損値がある観測値に使用する予測した応答値 "median" | "mean" | "omitted" | 数値スカラー

出力引数

L — 交差検証回帰損失 数値スカラー | 数値ベクトル | 数値行列

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2024a: GPU 配列の指定 (Parallel Computing Toolbox が必要)

R2023b: 予測子に欠損値がある観測値に使用する予測した応答値の指定

参考

`CVMdl` — 交差検証済みの線形回帰モデル
`RegressionPartitionedLinear` モデルオブジェクト

`Folds` — 応答の予測に使用する分割のインデックス
`1:CVMdl.KFold` (既定値) | 正の整数の数値ベクトル

`LossFun` — 損失関数
`"mse"` (既定値) | `"epsiloninsensitive"` | 関数ハンドル

`Mode` — 損失の集約レベル
`"average"` (既定値) | `"individual"`

`PredictionForMissingValue` — 予測子に欠損値がある観測値に使用する予測した応答値
`"median"` | `"mean"` | `"omitted"` | 数値スカラー

`L` — 交差検証回帰損失
数値スカラー | 数値ベクトル | 数値行列

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。