cvloss

回帰木モデルの交差検証による回帰誤差

ページ内をすべて折りたたむ

構文

E = cvloss(tree)

E = cvloss(tree,Name=Value)

[E,SE,Nleaf,BestLevel] = cvloss(___)

説明

E = cvloss(tree) は、学習済み回帰木モデル tree の交差検証による回帰誤差 (損失) E を返します。

例

E = cvloss(tree,Name=Value) では、1 つ以上の名前と値の引数を使用して追加オプションを指定します。たとえば、枝刈りレベル、木のサイズ、交差検証標本の数を指定できます。

例

[E,SE,Nleaf,BestLevel] = cvloss(___) は、前の構文におけるいずれかの入力引数の組み合わせを使用して、E の標準誤差、tree の葉ノードの数、および tree の最適な枝刈りレベルも返します。

例

すべて折りたたむ

交差検証誤差の計算

ライブスクリプトを開く

既定の回帰木について交差検証誤差を計算します。

carsmall データセットを読み込みます。Displacement、Horsepower および Weight が応答 MPG の予測子であると考えます。

load carsmall
X = [Displacement Horsepower Weight];

データセット全体を使用して回帰木を成長させます。

Mdl = fitrtree(X,MPG);

交差検証誤差を計算します。

rng(1); % For reproducibility
E = cvloss(Mdl)

E = 
27.6976

E は、(分割内のテスト観測値の個数で重みを付けた) 10 分割の加重平均 MSE です。

交差検証による最適な枝刈りレベルの探索

ライブスクリプトを開く

k 分割の交差検証を適用して、すべての部分木について最適な回帰木の枝刈りレベルを探索します。

carsmall データセットを読み込みます。Displacement、Horsepower および Weight が応答 MPG の予測子であると考えます。

load carsmall
X = [Displacement Horsepower Weight];

データセット全体を使用して回帰木を成長させます。生成された木を表示します。

Mdl = fitrtree(X,MPG);
view(Mdl,Mode="graph")

Figure Regression tree viewer contains an axes object and other objects of type uimenu, uicontrol. The axes object contains 60 objects of type line, text. One or more of the lines displays its values using only markers

最下位から 2 つおよび最上位の枝刈りレベルを除き、部分木ごとに 5 分割の交差検証誤差を計算します。すべての部分木で最適な枝刈りレベルを返すように指定します。

rng(1); % For reproducibility
m = max(Mdl.PruneList) - 1

m = 
15

[~,~,~,bestLevel] = cvloss(Mdl,SubTrees=2:m,KFold=5)

bestLevel = 
14

15 個の枝刈りレベルの中で、最適な枝刈りレベルは 14 です。

最適なレベルまで木を枝刈りします。生成された木を表示します。

MdlPrune = prune(Mdl,Level=bestLevel);
view(MdlPrune,Mode="graph")

Figure Regression tree viewer contains an axes object and other objects of type uimenu, uicontrol. The axes object contains 12 objects of type line, text. One or more of the lines displays its values using only markers

入力引数

すべて折りたたむ

`tree` — 回帰木モデル
`RegressionTree` モデルオブジェクト

回帰木モデル。fitrtree で学習させた RegressionTree モデルオブジェクトとして指定します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: [E,SE,Nleaf,BestLevel] = cvloss(tree,KFold=5) は、5 個の交差検証標本を使用するように指定します。

`Subtrees` — 枝刈りレベル
`0` (既定値) | 非負の整数のベクトル | `"all"`

枝刈りレベル。昇順の非負の整数のベクトルまたは "all" として指定します。

ベクトルを指定する場合、すべての要素が 0 から max(tree.PruneList) の範囲になければなりません。0 は枝刈りしない完全な木を、max(tree.PruneList) は完全に枝刈りした木 (つまり、ルートノードのみ) を表します。

"all" を指定した場合、cvloss はすべての部分木、つまり枝刈り順序全体に作用します。これは、0:max(tree.PruneList) を指定することと同じです。

cvloss では、Subtrees で指定された各レベルまで tree の枝刈りを行ってから、対応する出力引数を推定します。Subtrees のサイズにより、一部の出力引数のサイズが決まります。

関数で Subtrees を呼び出すために、tree の PruneList プロパティと PruneAlpha プロパティは空以外でなければなりません。言い換えると、fitrtree を使用するときに Prune="on" を設定して tree を成長させるか、prune を使用して tree を枝刈りすることで成長させます。

例: Subtrees="all"

データ型: single | double | char | string

`TreeSize` — 木のサイズ
`"se"` (既定値) | `"min"`

木のサイズ。次の値のいずれかとして指定します。

"se" — cvloss は、損失が最小値 (L+se、ここで L と se は Subtrees における最小値) の 1 標準偏差以内である最も高い枝刈りレベルを最適な枝刈りレベル (BestLevel) として返します。
"min" — cvloss は、損失が最も小さい Subtrees の要素を最適な枝刈りレベルとして返します。通常、この要素は Subtrees の最小要素です。

例: TreeSize="min"

データ型: char | string

`KFold` — 交差検証標本の数
10 (既定値) | 1 より大きい正の整数値

交差検証標本の数。1 より大きい正の整数値として指定します。

例: KFold=8

データ型: single | double

出力引数

すべて折りたたむ

`E` — 交差検証の平均二乗誤差
数値ベクトル

交差検証の平均二乗誤差 (損失)。Subtrees と同じ長さの数値ベクトルとして返されます。

`SE` — 標準誤差
数値ベクトル

E の標準誤差。Subtrees と同じ長さの数値ベクトルとして返されます。

`Nleaf` — 葉ノードの数
数値ベクトル

枝刈りされた部分木における葉ノードの数。Subtrees と同じ長さの数値ベクトルとして返されます。葉ノードは終端ノードであり、分割ではなく応答を与えます。

`BestLevel` — 最適な枝刈りレベル
数値スカラー

最適な枝刈りレベル。数値スカラーとして返されます。値は TreeSize に応じて次のようになります。

TreeSize が "se" の場合、関数 loss は、損失が最小値 (L+se、ここで L と se は Subtrees における最小値) の 1 標準偏差以内である最も高い枝刈りレベルを返します。
TreeSize が "min" の場合、関数 loss は、損失が最も小さい Subtrees の要素を返します。通常、これは Subtrees の最小要素です。

代替方法

crossval を使用して交差検証木のモデルを作成し、cvloss の代わりに kfoldLoss を呼び出すことができます。交差検証を行った木を複数回調べる場合、この代替方法では時間が節約できる可能性があります。

ただし、cvloss と異なり、kfoldLoss は SE、Nleaf、または BestLevel を返しません。

拡張機能

すべて展開する

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2011a で導入

参考

crossval | kfoldLoss | fitrtree | loss | RegressionTree

cvloss

構文

説明

例

交差検証誤差の計算

交差検証による最適な枝刈りレベルの探索

入力引数

tree — 回帰木モデル RegressionTree モデル オブジェクト

名前と値の引数

Subtrees — 枝刈りレベル 0 (既定値) | 非負の整数のベクトル | "all"

TreeSize — 木のサイズ "se" (既定値) | "min"

KFold — 交差検証標本の数 10 (既定値) | 1 より大きい正の整数値

出力引数

E — 交差検証の平均二乗誤差 数値ベクトル

SE — 標準誤差 数値ベクトル

Nleaf — 葉ノードの数 数値ベクトル

BestLevel — 最適な枝刈りレベル 数値スカラー

代替方法

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

参考

`tree` — 回帰木モデル
`RegressionTree` モデルオブジェクト

`Subtrees` — 枝刈りレベル
`0` (既定値) | 非負の整数のベクトル | `"all"`

`TreeSize` — 木のサイズ
`"se"` (既定値) | `"min"`

`KFold` — 交差検証標本の数
10 (既定値) | 1 より大きい正の整数値

`E` — 交差検証の平均二乗誤差
数値ベクトル

`SE` — 標準誤差
数値ベクトル

`Nleaf` — 葉ノードの数
数値ベクトル

`BestLevel` — 最適な枝刈りレベル
数値スカラー

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。