RegressionPartitionedGAM

回帰用の交差検証済みの一般化加法モデル (GAM)

R2021a 以降

説明

RegressionPartitionedGAM は、交差検証分割で学習を行った一般化加法モデルのセットです。kfold 関数の kfoldPredict、kfoldLoss、kfoldfun を 1 つ以上使用して、交差検証回帰の品質を評価します。

すべての kfold オブジェクト関数では、学習分割 (分割内) 観測値で学習させたモデルを使用して検証分割 (分割外) 観測値に対する応答を予測します。たとえば、データを 5 つに分割して交差検証を行うとします。ほぼ等しいサイズの 5 つのグループに各観測値が無作為に割り当てられます。"学習分割" にはグループのうち 4 つ (データの約 4/5) が含まれ、"検証分割" には他のグループ (データの約 1/5) が含まれます。この場合、交差検証は次のように処理されます。

(CVMdl.Trained{1} に格納されている) 1 番目のモデルの学習には最後の 4 つのグループの観測値が使用され、1 番目のグループの観測値は検証用に確保されます。
(CVMdl.Trained{2} に格納されている) 2 番目のモデルの学習には、1 番目のグループと最後の 3 つのグループの観測値が使用されます。2 番目のグループの観測値は、検証用に確保されます。
3 番目、4 番目および 5 番目のモデルに対しても同様に続けられます。

kfoldPredict を使用して検証する場合、i 番目のモデルを使用してグループ i の観測値について予測が計算されます。つまり、それぞれの観測値に対する応答は、その観測値を使用せずに学習させたモデルによって推定されます。

作成

RegressionPartitionedGAM モデルは 2 つの方法で作成できます。

オブジェクト関数 crossval を使用して、GAM オブジェクト RegressionGAM から交差検証済みモデルを作成する。
関数 fitrgam を使用し、名前と値の引数 'CrossVal'、'CVPartition'、'Holdout'、'KFold'、'Leaveout' のいずれかを指定して、交差検証済みモデルを作成する。

プロパティ

すべて展開する

GAM のプロパティ

`IsStandardDeviationFit` — 標準偏差モデルを当てはめるかどうかを示すフラグ
`false` | `true`

応答変数の標準偏差のモデルを当てはめるかどうかを示すフラグ。false または true を指定します。標準偏差のモデルを当てはめるには、fitrgam の名前と値の引数 'FitStandardDeviation' として true を指定します。

IsStandardDeviationFit が true の場合は、kfoldPredict を使用して、予測子データ X で標準偏差を評価できます。この関数は、X で評価した応答変数の予測区間も返します。

データ型: logical

交差検証のプロパティ

`CrossValidatedModel` — 交差検証されたモデル名
読み取り専用: `'GAM'`

このプロパティは読み取り専用です。

交差検証済みモデルの名前。'GAM' として指定されます。

`KFold` — 交差検証された分割の数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

交差検証された分割の数。正の整数で指定します。

データ型: double

`ModelParameters` — 交差検証パラメーター値
読み取り専用: オブジェクト

このプロパティは読み取り専用です。

交差検証パラメーター値。オブジェクトを指定します。パラメーター値は、一般化加法モデルの交差検証に使用した名前と値の引数の値に対応します。推定されたパラメーターは ModelParameters に含まれません。

ドット表記を使用して ModelParameters のプロパティにアクセスできます。

`NumTrainedPerFold` — モデルあたりの学習済みの木の数
読み取り専用: 構造体

このプロパティは読み取り専用です。

Trained におけるモデルあたりの学習済みの木の数。次のフィールドをもつ構造体として指定します。

フィールド	値
`PredictorTrees`	数値ベクトル — `PredictorTrees` の要素 i は、`Trained` 内のモデル i における線形項あたりの木の数を示します。
`InteractionTrees`	数値ベクトル — `InteractionTrees` の要素 i は、`Trained` 内のモデル i における交互作用項あたりの木の数を示します。

データ型: struct

`Partition` — データ分割
読み取り専用: `cvpartition` モデル

このプロパティは読み取り専用です。

データを交差検証分割に分割する方法を含むデータ分割。cvpartition モデルとして指定します。

`Trained` — 交差検証分割で学習させたコンパクトなモデル
読み取り専用: `CompactRegressionGAM` モデルの cell 配列

このプロパティは読み取り専用です。

交差検証分割で学習させたコンパクトなモデル。CompactRegressionGAM モデルオブジェクトの cell 配列として指定されます。Trained には k 個のセルがあります。k は分割数です。

データ型: cell

他の回帰のプロパティ

`CategoricalPredictors` — カテゴリカル予測子のインデックス
読み取り専用: 正の整数のベクトル | `[]`

このプロパティは読み取り専用です。

カテゴリカル予測子のインデックス。正の整数のベクトルとして指定します。CategoricalPredictors には、対応する予測子がカテゴリカルであることを示すインデックス値が格納されます。インデックス値の範囲は 1 ～ p です。p はモデルの学習に使用した予測子の数です。どの予測子もカテゴリカルではない場合、このプロパティは空 ([]) になります。

データ型: double

`NumObservations` — 観測値の数
読み取り専用: 数値スカラー

このプロパティは読み取り専用です。

X および Y に格納されている学習データ内の観測値の個数。数値スカラーを指定します。

データ型: double

`PredictorNames` — 予測子変数名
読み取り専用: 文字ベクトルの cell 配列

このプロパティは読み取り専用です。

予測子変数の名前。文字ベクトルの cell 配列を指定します。PredictorNames の要素の順序は、予測子名が学習データに現れる順序に対応します。

データ型: cell

`ResponseName` — 応答変数名
読み取り専用: 文字ベクトル

このプロパティは読み取り専用です。

応答変数名。文字ベクトルを指定します。

データ型: char

`ResponseTransform` — 応答変換関数
`"none"` | 関数ハンドル

応答変換関数。"none" または関数ハンドルを指定します。ResponseTransform は、生の応答値を変換する方法を表します。

MATLAB^® 関数やユーザー定義関数の場合は、関数ハンドルを入力します。たとえば、Mdl.ResponseTransform = @function を入力できます。ここで function は、元の応答の数値ベクトルを受け入れ、変換した応答が格納されている同じサイズの数値ベクトルを返します。

データ型: char | string | function_handle

`W` — 観測値の重み
読み取り専用: 数値ベクトル

このプロパティは読み取り専用です。

モデルの学習に使用された観測値の重み。n 行 1 列の数値ベクトルとして指定されます。n は観測値の個数 (NumObservations) です。

W の要素の合計が 1 になるように、名前と値の引数 'Weights' で指定された観測値の重みが正規化されます。

データ型: double

`X` — 予測子
読み取り専用: 数値行列 | table

このプロパティは読み取り専用です。

モデルの交差検証に使用された予測子。数値行列または table として指定されます。

X の各行は 1 つの観測値に対応し、各列は 1 つの変数に対応します。

データ型: single | double | table

`Y` — 応答
読み取り専用: 数値ベクトル

このプロパティは読み取り専用です。

モデルの交差検証に使用された応答。数値ベクトルとして指定されます。

Y の各行は、X の対応する行の観測された応答を表します。

データ型: single | double

オブジェクト関数

`kfoldPredict`	交差検証済み回帰モデル内の観測値に対する応答の予測
`kfoldLoss`	交差検証された分割済みの回帰モデルの損失
`kfoldfun`	回帰での関数の交差検証

例

すべて折りたたむ

`fitrgam` を使用した交差検証済みの GAM の作成

ライブスクリプトを開く

fitrgam を使用して、交差検証済みの 10 分割 (既定の交差検証オプション) の GAM に学習させます。その後、kfoldPredict を使用し、学習分割観測値に対して学習をさせたモデルを使用して、検証分割観測値の応答を予測します。

carbig データセットを読み込みます。このデータセットには、1970 年代と 1980 年代初期に製造された自動車の測定値が格納されています。

load carbig

予測子変数 (Acceleration、Displacement、Horsepower、および Weight) と応答変数 (MPG) を格納する table を作成します。

tbl = table(Acceleration,Displacement,Horsepower,Weight,MPG);

既定の交差検証オプションを使用して交差検証済み GAM を作成します。名前と値の引数 'CrossVal' を 'on' として指定します。

rng('default') % For reproducibility
CVMdl = fitrgam(tbl,'MPG','CrossVal','on')

CVMdl = 
  RegressionPartitionedGAM
       CrossValidatedModel: 'GAM'
            PredictorNames: {'Acceleration'  'Displacement'  'Horsepower'  'Weight'}
              ResponseName: 'MPG'
           NumObservations: 398
                     KFold: 10
                 Partition: [1×1 cvpartition]
         NumTrainedPerFold: [1×1 struct]
         ResponseTransform: 'none'
    IsStandardDeviationFit: 0


  Properties, Methods

関数 fitrgam で 10 分割の RegressionPartitionedGAM モデルオブジェクト CVMdl が作成されます。交差検証時は、以下の手順が実行されます。

データを 10 個のセットに無作為に分割する。
各セットについて、そのセットを検証データとして予約し、他の 9 個のセットを使用してモデルに学習させる。
10 個のコンパクトな学習済みモデルを交差検証済みモデルオブジェクト RegressionPartitionedGAM の Trained プロパティに 10 行 1 列の cell ベクトルとして格納する。

既定の交差検証の設定は、名前と値の引数 'CVPartition'、'Holdout'、'KFold'、'Leaveout' を使用してオーバーライドできます。

kfoldPredict を使用して tbl の観測値の応答を予測します。それぞれの観測値に対する応答が、その観測値を使用せずに学習させたモデルを使用して予測されます。

yHat = kfoldPredict(CVMdl);

yHat は数値ベクトルです。最初の 5 つの予測応答を表示します。

yHat(1:5)

回帰損失 (平均二乗誤差) を計算します。

L = kfoldLoss(CVMdl)

L = 
17.7248

kfoldLoss から 10 個の分割についての平均二乗誤差の平均が返されます。

`crossval` を使用した交差検証済みの回帰 GAM の作成

ライブスクリプトを開く

fitrgam を使用して回帰一般化加法モデル (GAM) に学習させ、crossval とホールドアウトオプションを使用して交差検証済み GAM を作成します。その後、kfoldPredict を使用し、学習分割観測値に対して学習をさせたモデルを使用して、検証分割観測値の応答を予測します。

patients データセットを読み込みます。

load patients

予測子変数 (Age、Diastolic、Smoker、Weight、Gender、SelfAssessedHealthStatus) と応答変数 (Systolic) を格納する table を作成します。

tbl = table(Age,Diastolic,Smoker,Weight,Gender,SelfAssessedHealthStatus,Systolic);

予測子の線形項が格納されている GAM に学習させます。

Mdl = fitrgam(tbl,'Systolic');

Mdl は RegressionGAM モデルオブジェクトです。

30% のホールドアウト標本を指定して、モデルを交差検証します。

rng('default') % For reproducibility
CVMdl = crossval(Mdl,'Holdout',0.3)

CVMdl = 
  RegressionPartitionedGAM
       CrossValidatedModel: 'GAM'
            PredictorNames: {'Age'  'Diastolic'  'Smoker'  'Weight'  'Gender'  'SelfAssessedHealthStatus'}
     CategoricalPredictors: [3 5 6]
              ResponseName: 'Systolic'
           NumObservations: 100
                     KFold: 1
                 Partition: [1×1 cvpartition]
         NumTrainedPerFold: [1×1 struct]
         ResponseTransform: 'none'
    IsStandardDeviationFit: 0


  Properties, Methods

関数 crossval は、ホールドアウトオプションを使用して RegressionPartitionedGAM モデルオブジェクトの CVMdl を作成します。交差検証時は、以下の手順が実行されます。

30% のデータを無作為に選択して検証データとして確保し、残りのデータを使用してモデルに学習をさせる。
コンパクトな学習済みモデルを交差検証済みモデルオブジェクト RegressionPartitionedGAM の Trained プロパティに格納する。

名前と値の引数 'CrossVal'、'CVPartition'、'KFold' または 'Leaveout' を使用すると、別の交差検証の設定を選択できます。

kfoldPredict を使用して検証分割観測値の応答を予測します。この関数は、学習分割観測値に対して学習をさせたモデルを使用して、検証分割観測値の応答を予測します。この関数では、学習分割観測値に NaN が割り当てられます。

yFit = kfoldPredict(CVMdl);

検証分割観測値のインデックスを検出して、観測値のインデックス、観測された応答値および予測された応答値が格納されている table を作成します。table の最初の 8 行を表示します。

idx = find(~isnan(yFit));
t = table(idx,tbl.Systolic(idx),yFit(idx), ...
    'VariableNames',{'Obseraction Index','Observed Value','Predicted Value'});
head(t)

    Obseraction Index    Observed Value    Predicted Value
    _________________    ______________    _______________

            1                 124              130.22     
            6                 121              124.38     
            7                 130              125.26     
           12                 115              117.05     
           20                 125              121.82     
           22                 123              116.99     
           23                 114                 107     
           24                 128              122.52

検証分割観測値の回帰誤差 (平均二乗誤差) を計算します。

L = kfoldLoss(CVMdl)

L = 
43.8715

`kfoldLoss` を使用した GAM の最適な木の数の特定

ライブスクリプトを開く

交差検証済みの 10 分割の一般化加法モデル (GAM) に学習させます。その後、kfoldLoss を使用して交差検証の累積回帰損失 (平均二乗誤差) を計算します。誤差を使用して、予測子 (予測子の線形項) あたりの最適な木の数と交互作用項あたりの最適な木の数を特定します。

代わりに、名前と値の引数OptimizeHyperparametersを使用して fitrgam の名前と値の引数の最適な値を特定することもできます。例については、OptimizeHyperparameters を使用した GAM の最適化を参照してください。

patients データセットを読み込みます。

load patients

予測子変数 (Age、Diastolic、Smoker、Weight、Gender、および SelfAssessedHealthStatus) と応答変数 (Systolic) を格納する table を作成します。

tbl = table(Age,Diastolic,Smoker,Weight,Gender,SelfAssessedHealthStatus,Systolic);

既定の交差検証オプションを使用して交差検証済み GAM を作成します。名前と値の引数 'CrossVal' を 'on' として指定します。また、5 つの交互作用項を含めるように指定します。

rng('default') % For reproducibility
CVMdl = fitrgam(tbl,'Systolic','CrossVal','on','Interactions',5);

'Mode' を 'cumulative' として指定すると、関数 kfoldLoss は累積誤差を返します。これは、各分割に同じ数の木を使用して取得したすべての分割の平均誤差です。各分割の木の数を表示します。

CVMdl.NumTrainedPerFold

ans = struct with fields:
      PredictorTrees: [300 300 300 300 300 300 300 300 300 300]
    InteractionTrees: [76 100 100 100 100 42 100 100 59 100]

kfoldLoss では、最大で 300 個の予測子木と 42 個の交互作用木を使用して累積誤差を計算できます。

10 分割交差検証を行った累積平均二乗誤差をプロットします。'IncludeInteractions' を false として指定して、計算から交互作用項を除外します。

L_noInteractions = kfoldLoss(CVMdl,'Mode','cumulative','IncludeInteractions',false);
figure
plot(0:min(CVMdl.NumTrainedPerFold.PredictorTrees),L_noInteractions)

Figure contains an axes object. The axes object contains an object of type line.

L_noInteractions の最初の要素は、切片 (定数) 項のみを使用して取得したすべての分割の平均誤差です。L_noInteractions の (J+1) 番目の要素は、切片項と各線形項の最初の J 個の予測子木を使用して取得した平均誤差です。累積損失をプロットすると、GAM の予測子木の数が増えるにつれて誤差がどのように変化するかを観察できます。

最小誤差とその最小誤差の達成時に使用された予測子木の数を調べます。

[M,I] = min(L_noInteractions)

M = 
28.0506

I = 
6

GAM に 5 個の予測子木が含まれるときに誤差が最小になっています。

線形項と交互作用項の両方を使用して累積平均二乗誤差を計算します。

L = kfoldLoss(CVMdl,'Mode','cumulative');
figure
plot(0:min(CVMdl.NumTrainedPerFold.InteractionTrees),L)

Figure contains an axes object. The axes object contains an object of type line.

L の最初の要素は、切片 (定数) 項と各線形項のすべての予測子木を使用して取得したすべての分割の平均誤差です。L の (J+1) 番目の要素は、切片項、各線形項のすべての予測子木、および各交互作用項の最初の J 個の交互作用木を使用して取得した平均誤差です。プロットから、交互作用項を追加すると誤差が大きくなることがわかります。

予測子木の数が 5 個のときの誤差で問題がなければ、一変量の GAM にもう一度学習させ、交差検証を使用せずに 'NumTreesPerPredictor',5 と指定して予測モデルを作成できます。

詳細

すべて展開する

回帰用の一般化加法モデル (GAM)

一般化加法モデル (GAM) は、予測子の一変量および二変量の形状関数の和を使用して応答変数を説明する解釈可能なモデルです。

fitrgam では、各予測子および必要に応じて予測子の各ペアの形状関数としてブースティング木を使用するため、予測子と応答変数の間の非線形関係を取得できます。予測 (応答値) に対する個々の形状関数の寄与が十分に分離されるため、このモデルは解釈が容易です。

標準の GAM では、各予測子の一変量の形状関数を使用します。

$\begin{array}{l} y ~ N (μ, σ^{2}) \\ g (μ) = μ = c + f_{1} (x_{1}) + f_{2} (x_{2}) + \dots + f_{p} (x_{p}), \end{array}$

y は応答変数で、平均 μ および標準偏差 σ をもつ正規分布に従います。g(μ) は恒等リンク関数、c は切片 (定数) 項です。f_i(x_i) は i 番目の予測子についての一変量の形状関数で、予測子の線形項のブースティング木 (予測子木) になります。

重要な交互作用項の二変量の形状関数をモデルに追加して、予測子同士の交互作用をモデルに含めることができます。

$μ = c + f_{1} (x_{1}) + f_{2} (x_{2}) + \dots + f_{p} (x_{p}) + \sum_{i, j \in {1, 2, \dots, p}} f_{i j} (x_{i} x_{j}),$

f_ij(x_ix_j) は i 番目と j 番目の予測子についての二変量の形状関数で、予測子の交互作用項のブースティング木 (交互作用木) になります。

fitrgam は、重要な交互作用項を F 検定の p 値に基づいて特定します。詳細については、交互作用項の検出を参照してください。

fitrgam の 'FitStandardDeviation' として false (既定値) を指定した場合、fitrgam は平均 μ についてモデルに学習させます。'FitStandardDeviation' として true を指定した場合、fitrgam は標準偏差 σ について追加のモデルに学習させて、GAM オブジェクトの IsStandardDeviationFit プロパティを true に設定します。

バージョン履歴

R2021a で導入

参考

RegressionGAM | crossval

トピック

回帰用の一般化加法モデルの学習

RegressionPartitionedGAM

説明

作成

プロパティ

GAM のプロパティ

IsStandardDeviationFit — 標準偏差モデルを当てはめるかどうかを示すフラグ false | true

交差検証のプロパティ

CrossValidatedModel — 交差検証されたモデル名 読み取り専用: 'GAM'

KFold — 交差検証された分割の数 読み取り専用: 正の整数

ModelParameters — 交差検証パラメーター値 読み取り専用: オブジェクト

NumTrainedPerFold — モデルあたりの学習済みの木の数 読み取り専用: 構造体

Partition — データ分割 読み取り専用: cvpartition モデル

Trained — 交差検証分割で学習させたコンパクトなモデル 読み取り専用: CompactRegressionGAM モデルの cell 配列

他の回帰のプロパティ

CategoricalPredictors — カテゴリカル予測子のインデックス 読み取り専用: 正の整数のベクトル | []

NumObservations — 観測値の数 読み取り専用: 数値スカラー

PredictorNames — 予測子変数名 読み取り専用: 文字ベクトルの cell 配列

ResponseName — 応答変数名 読み取り専用: 文字ベクトル

ResponseTransform — 応答変換関数 "none" | 関数ハンドル

W — 観測値の重み 読み取り専用: 数値ベクトル

X — 予測子 読み取り専用: 数値行列 | table

Y — 応答 読み取り専用: 数値ベクトル

オブジェクト関数

例

fitrgam を使用した交差検証済みの GAM の作成

crossval を使用した交差検証済みの回帰 GAM の作成

kfoldLoss を使用した GAM の最適な木の数の特定

詳細

回帰用の一般化加法モデル (GAM)

バージョン履歴

参考

トピック

`IsStandardDeviationFit` — 標準偏差モデルを当てはめるかどうかを示すフラグ
`false` | `true`

`CrossValidatedModel` — 交差検証されたモデル名
読み取り専用: `'GAM'`

`KFold` — 交差検証された分割の数
読み取り専用: 正の整数

`ModelParameters` — 交差検証パラメーター値
読み取り専用: オブジェクト

`NumTrainedPerFold` — モデルあたりの学習済みの木の数
読み取り専用: 構造体

`Partition` — データ分割
読み取り専用: `cvpartition` モデル

`Trained` — 交差検証分割で学習させたコンパクトなモデル
読み取り専用: `CompactRegressionGAM` モデルの cell 配列

`CategoricalPredictors` — カテゴリカル予測子のインデックス
読み取り専用: 正の整数のベクトル | `[]`

`NumObservations` — 観測値の数
読み取り専用: 数値スカラー

`PredictorNames` — 予測子変数名
読み取り専用: 文字ベクトルの cell 配列

`ResponseName` — 応答変数名
読み取り専用: 文字ベクトル

`ResponseTransform` — 応答変換関数
`"none"` | 関数ハンドル

`W` — 観測値の重み
読み取り専用: 数値ベクトル

`X` — 予測子
読み取り専用: 数値行列 | table

`Y` — 応答
読み取り専用: 数値ベクトル

`fitrgam` を使用した交差検証済みの GAM の作成

`crossval` を使用した交差検証済みの回帰 GAM の作成

`kfoldLoss` を使用した GAM の最適な木の数の特定