resubLoss

再代入分類損失

構文

L = resubLoss(Mdl)

L = resubLoss(Mdl,Name,Value)

説明

L = resubLoss(Mdl) は、Mdl.X に格納されている学習データと Mdl.Y に格納されている対応するクラスラベルを使用して、学習済み分類モデル Mdl の再代入による分類損失(標本内分類損失) L を返します。

L の解釈は損失関数 ('LossFun') と加重スキーム (Mdl.W) によって異なります。一般に、優れた分類器の方が分類損失値が小さくなります。'LossFun' の既定値はモデルオブジェクト Mdl に応じて異なります。

例

L = resubLoss(Mdl,Name,Value) では、1 つ以上の名前と値の引数を使用して追加オプションを指定します。たとえば、'LossFun','binodeviance' は損失関数を二項分布からの逸脱度の関数に設定します。

例

すべて折りたたむ

単純ベイズ分類器の再代入損失の決定

ライブスクリプトを開く

単純ベイズ分類器の標本内分類誤差 (再代入損失) を決定します。一般に、損失が小さいほど分類器が優れていることになります。

fisheriris データセットを読み込みます。150 本のアヤメについて 4 つの測定値が含まれる数値行列 X を作成します。対応するアヤメの種類が含まれる文字ベクトルの cell 配列 Y を作成します。

load fisheriris
X = meas;
Y = species;

予測子 X とクラスラベル Y を使用して、単純ベイズ分類器に学習させます。クラス名を指定することが推奨されます。fitcnb は、各予測子が条件付き正規分布に従うと仮定しています。

Mdl = fitcnb(X,Y,'ClassNames',{'setosa','versicolor','virginica'})

Mdl = 
  ClassificationNaiveBayes
              ResponseName: 'Y'
     CategoricalPredictors: []
                ClassNames: {'setosa'  'versicolor'  'virginica'}
            ScoreTransform: 'none'
           NumObservations: 150
         DistributionNames: {'normal'  'normal'  'normal'  'normal'}
    DistributionParameters: {3x4 cell}

Mdl は学習させた ClassificationNaiveBayes 分類器です。

標本内分類誤差を推定します。

L = resubLoss(Mdl)

L = 0.0400

単純ベイズ分類器は、学習の観測値の 4% を誤分類します。

SVM 分類器の再代入ヒンジ損失の特定

ライブスクリプトを開く

ionosphere データセットを読み込みます。このデータセットには、レーダー反射についての 34 個の予測子と、不良 ('b') または良好 ('g') という 351 個の二項反応が含まれています。

load ionosphere

サポートベクターマシン (SVM) 分類器に学習させます。データを標準化し、'g' が陽性クラスであることを指定します。

SVMModel = fitcsvm(X,Y,'ClassNames',{'b','g'},'Standardize',true);

SVMModel は学習させた ClassificationSVM 分類器です。

標本内ヒンジ損失を推定します。

L = resubLoss(SVMModel,'LossFun','hinge')

L = 0.1603

ヒンジ損失は 0.1603 です。分類器のヒンジ損失は 0 に近いことが推奨されます。

分類損失の検査による GAM の比較

ライブスクリプトを開く

予測子の線形項と交互作用項の両方が格納されている一般化加法モデル (GAM) に学習させて、交互作用項を含む分類損失と含まない分類損失を推定します。学習データとテストデータの分類損失を推定する際に交互作用項を含めるかどうかを指定します。

load ionosphere

データセットを 2 つのセットに分割します。1 つは学習データを含め、もう 1 つは新しい未観測のテストデータを含めます。新しいテストデータセットの 50 件の観測値を保持します。

rng('default') % For reproducibility
n = size(X,1);
newInds = randsample(n,50);
inds = ~ismember(1:n,newInds);
XNew = X(newInds,:);
YNew = Y(newInds);

予測子 X とクラスラベル Y を使用して、GAM に学習させます。クラス名を指定することが推奨されます。上位 10 個の最も重要な交互作用項を含めるように指定します。

Mdl = fitcgam(X(inds,:),Y(inds),'ClassNames',{'b','g'},'Interactions',10)

Mdl = 
  ClassificationGAM
             ResponseName: 'Y'
    CategoricalPredictors: []
               ClassNames: {'b'  'g'}
           ScoreTransform: 'logit'
                Intercept: 2.0026
             Interactions: [10x2 double]
          NumObservations: 301

Mdl は ClassificationGAM モデルオブジェクトです。

Mdl に交互作用項を含める場合と含めない場合の両方の再代入分類損失を計算します。交互作用項を除外するには、'IncludeInteractions',false を指定します。

resubl = resubLoss(Mdl)

resubl = 0

resubl_nointeraction = resubLoss(Mdl,'IncludeInteractions',false)

resubl_nointeraction = 0

Mdl に交互作用項を含める場合と含めない場合の両方の分類損失を推定します。

l = loss(Mdl,XNew,YNew)

l = 0.0615

l_nointeraction = loss(Mdl,XNew,YNew,'IncludeInteractions',false)

l_nointeraction = 0.0615

交互作用項を含めても、Mdl の分類損失は変わりません。学習済みモデルはすべての学習標本を正しく分類し、テスト標本のうち約 6% を誤分類しています。

入力引数

すべて折りたたむ

`Mdl` — 分類機械学習モデル
完全な分類モデルオブジェクト

分類機械学習モデル。完全な分類モデルオブジェクトとして指定します。サポートされるモデルは次の表に記載されています。

モデル	分類モデルオブジェクト
一般化加法モデル	`ClassificationGAM`
k 最近傍モデル	`ClassificationKNN`
単純ベイズモデル	`ClassificationNaiveBayes`
ニューラルネットワークモデル	`ClassificationNeuralNetwork`
1 クラスおよびバイナリ分類用のサポートベクターマシン	`ClassificationSVM`

名前と値の引数

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで Name は引数名、Value は対応する値です。名前と値の引数は他の引数の後ろにする必要がありますが、ペアの順序は関係ありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: resubLoss(Mdl,'LossFun','logit') は、ロジット再代入損失を推定します。

`IncludeInteractions` — 交互作用項を含むというフラグ
`true` | `false`

モデルの交互作用項を含むというフラグ。true または false として指定します。この引数は、一般化加法モデル (GAM) の場合のみ有効です。つまり、この引数を指定できるのは、Mdl が ClassificationGAM である場合だけです。

Mdl に交互作用項が含まれる場合、既定値は true です。モデルに交互作用項が含まれない場合、値は false でなければなりません。

データ型: logical

`LossFun` — 損失関数
`'binodeviance'` | `'classifcost'` | `'classiferror'` | `'crossentropy'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | 関数ハンドル

損失関数。組み込みの損失関数名または関数ハンドルを指定します。

既定値は、モデル Mdl のタイプによって異なります。

Mdl が ClassificationSVM オブジェクトである場合、既定値は 'classiferror' です。
Mdl が ClassificationKNN、ClassificationNaiveBayes または ClassificationNeuralNetwork オブジェクトである場合、既定値は 'mincost' です。
Mdl が ClassificationGAM オブジェクトである場合、入力モデルオブジェクトの ScoreTransform プロパティ (Mdl.ScoreTransform) が 'logit' であれば既定値は 'mincost'、それ以外であれば既定値は 'classiferror' です。

'classiferror' と 'mincost' は、既定のコスト行列を使用する場合は同じです。詳細については、分類損失を参照してください。

次の表は、使用できる損失関数の一覧です。対応する文字ベクトルまたは string スカラーを使用して、いずれかを指定します。

値	説明
`'binodeviance'`	二項分布からの逸脱度
`'classifcost'`	観測誤分類コスト
`'classiferror'`	10 進数の誤分類率
`'crossentropy'`	クロスエントロピー損失 (ニューラルネットワークの場合のみ)
`'exponential'`	指数損失
`'hinge'`	ヒンジ損失
`'logit'`	ロジスティック損失
`'mincost'`	最小予測誤分類コスト (事後確率である分類スコアの場合)
`'quadratic'`	二次損失

カスタム損失関数を指定するには、関数ハンドル表記を使用します。関数は次の形式でなければなりません。
```
lossvalue = lossfun(C,S,W,Cost)
```
- 出力引数 lossvalue はスカラーです。
- 関数名 (lossfun) を指定します。
- C は n 行 K 列の logical 行列であり、対応する観測値が属するクラスを各行が示します。n は Tbl または X 内の観測値の個数、K は異なるクラスの個数 (numel(Mdl.ClassNames)) です。列の順序は Mdl.ClassNames のクラスの順序に対応します。各行について観測値 p がクラス q に属する場合は C(p,q) = 1 を設定することにより、C を作成します。行 p の他のすべての要素を 0 に設定します。
- S は、分類スコアの n 行 K 列の行列です。列の順序は Mdl.ClassNames のクラスの順序に対応します。S は分類スコアの行列で、predict の出力と同様です。
- W は、観測値の重みの n 行 1 列の数値ベクトルです。
- Cost は、誤分類コストの、K 行 K 列の数値行列です。たとえば、Cost = ones(K) – eye(K) は、正しい分類のコストとして 0 を、誤分類のコストとして 1 を指定します。

例: 'LossFun','binodeviance'

データ型: char | string | function_handle

詳細

すべて折りたたむ

分類損失

"分類損失" 関数は分類モデルの予測誤差を評価します。複数のモデルで同じタイプの損失を比較した場合、損失が低い方が予測モデルとして優れていることになります。

以下のシナリオを考えます。

L は加重平均分類損失です。
n は標本サイズです。

バイナリ分類は以下です。
- y_j は観測されたクラスラベルです。陰性クラスを示す -1 または陽性クラスを示す 1 (あるいは、ClassNames プロパティの最初のクラスを示す -1 または 2 番目のクラスを示す 1) を使用して符号化されます。
- f(X_j) は予測子データ X の観測値 (行) j に対する陽性クラスの分類スコアです。
- m_j = y_jf(X_j) は、y_j に対応するクラスに観測値 j を分類する分類スコアです。正の値の m_j は正しい分類を示しており、平均損失に対する寄与は大きくありません。負の値の m_j は正しくない分類を示しており、平均損失に大きく寄与します。
マルチクラス分類 (つまり、K ≥ 3) をサポートするアルゴリズムの場合、次のようになります。
- y_j^* は、K - 1 個の 0 と、観測された真のクラス y_j に対応する位置の 1 から構成されるベクトルです。たとえば、2 番目の観測値の真のクラスが 3 番目のクラスであり K = 4 の場合、y₂^* = [0 0 1 0]′ になります。クラスの順序は入力モデルの ClassNames プロパティ内の順序に対応します。
- f(X_j) は予測子データ X の観測値 j に対するクラススコアのベクトルで、長さは K です。スコアの順序は入力モデルの ClassNames プロパティ内のクラスの順序に対応します。
- m_j = y_j^*′f(X_j).したがって m_j は、観測された真のクラスについてモデルが予測するスカラー分類スコアです。
観測値 j の重みは w_j です。観測値の重みは、その合計が Prior プロパティに格納された対応するクラスの事前確率になるように正規化されます。そのため、次のようになります。

$\sum_{j = 1}^{n} w_{j} = 1.$

この状況では、名前と値の引数 LossFun を使用して指定できる、サポートされる損失関数は次の表のようになります。

損失関数	`LossFun` の値	式
二項分布からの逸脱度	`"binodeviance"`	$L = \sum_{j = 1}^{n} w_{j} \log {1 + \exp [- 2 m_{j}]} .$
観測誤分類コスト	`"classifcost"`	$L = \sum_{j = 1}^{n} w_{j} c_{y_{j} {\hat{y}}_{j}},$ ここで、 ${\hat{y}}_{j}$ はスコアが最大のクラスに対応するクラスラベル、 $c_{y_{j} {\hat{y}}_{j}}$ は真のクラスが y_j である場合に観測値をクラス ${\hat{y}}_{j}$ に分類するユーザー指定のコストです。
10 進数の誤分類率	`"classiferror"`	$L = \sum_{j = 1}^{n} w_{j} I {{\hat{y}}_{j} \neq y_{j}},$ ここで、I{·} はインジケーター関数です。
クロスエントロピー損失	`"crossentropy"`	`"crossentropy"` はニューラルネットワークモデルのみに適しています。加重クロスエントロピー損失は次となります。 $L = - \sum_{j = 1}^{n} \frac{{\tilde{w}}_{j} \log (m_{j})}{K n},$ ここで重み ${\tilde{w}}_{j}$ は、合計が 1 ではなく n になるように正規化されます。
指数損失	`"exponential"`	$L = \sum_{j = 1}^{n} w_{j} \exp (- m_{j}) .$
ヒンジ損失	`"hinge"`	$L = \sum_{j = 1}^{n} w_{j} \max {0, 1 - m_{j}} .$
ロジット損失	`"logit"`	$L = \sum_{j = 1}^{n} w_{j} \log (1 + \exp (- m_{j})) .$
最小予測誤分類コスト	`"mincost"`	`"mincost"` は、分類スコアが事後確率の場合にのみ適しています。重み付きの最小予測分類コストは、次の手順を観測値 j = 1、...、n について使用することにより計算されます。観測値 X_j をクラス k に分類する予測誤分類コストを推定します。 $γ_{j k} = {(f {(X_{j})}^{'} C)}_{k} .$ f(X_j) は観測値 X_j のクラス事後確率の列ベクトルです。C はモデルの `Cost` プロパティに格納されるコスト行列です。最小予測誤分類コストに対応するクラスラベルを観測値 j について予測します。 ${\hat{y}}_{j} = \underset{k = 1, ..., K}{argmin} γ_{j k} .$ C を使用して、予測を行うために必要なコスト (c_j) を求めます。最小予測誤分類コスト損失の加重平均は次となります。 $L = \sum_{j = 1}^{n} w_{j} c_{j} .$
二次損失	`"quadratic"`	$L = \sum_{j = 1}^{n} w_{j} {(1 - m_{j})}^{2} .$

既定のコスト行列 (正しい分類の場合の要素値は 0、誤った分類の場合の要素値は 1) を使用する場合、"classifcost"、"classiferror"、および "mincost" の損失の値は同じです。既定以外のコスト行列をもつモデルでは、ほとんどの場合は "classifcost" の損失と "mincost" の損失が等価になります。これらの損失が異なる値になる可能性があるのは、最大の事後確率をもつクラスへの予測と最小の予測コストをもつクラスへの予測が異なる場合です。"mincost" は分類スコアが事後確率の場合にしか適さないことに注意してください。

次の図では、1 つの観測値のスコア m に対する損失関数 ("classifcost"、"crossentropy"、および "mincost" を除く) を比較しています。いくつかの関数は、点 (0,1) を通過するように正規化されています。

アルゴリズム

resubLoss は、オブジェクト (Mdl) の対応する関数 loss に従って分類損失を計算します。モデル固有の説明については、次の表に示す関数 loss のリファレンスページを参照してください。

モデル	分類モデルオブジェクト (`Mdl`)	オブジェクト関数 `loss`
一般化加法モデル	`ClassificationGAM`	`loss`
k 最近傍モデル	`ClassificationKNN`	`loss`
単純ベイズモデル	`ClassificationNaiveBayes`	`loss`
ニューラルネットワークモデル	`ClassificationNeuralNetwork`	`loss`
1 クラスおよびバイナリ分類用のサポートベクターマシン	`ClassificationSVM`	`loss`

拡張機能

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

使用上の注意事項および制限事項:

この関数は、ClassificationKNN または ClassificationSVM オブジェクトとして指定した学習済み分類モデルの GPU 配列を完全にサポートします。

詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2012a で導入

すべて展開する

R2023b: 予測子に欠損値がある観測値を再代入と交差検証の計算に使用

R2023b 以降では、次の分類モデルのオブジェクト関数において、予測子に欠損値がある観測値が再代入 ("resub") と交差検証 ("kfold") による分類エッジ、損失、マージン、および予測の計算でその一部として使用されます。

モデルタイプ	モデルオブジェクト	オブジェクト関数
判別分析分類モデル	`ClassificationDiscriminant`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
判別分析分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
分類用の判別分析学習器のアンサンブル	`ClassificationEnsemble`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
分類用の判別分析学習器のアンサンブル	`ClassificationPartitionedEnsemble`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ガウスカーネル分類モデル	`ClassificationPartitionedKernel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ガウスカーネル分類モデル	`ClassificationPartitionedKernelECOC`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
線形分類モデル	`ClassificationPartitionedLinear`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
線形分類モデル	`ClassificationPartitionedLinearECOC`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ニューラルネットワーク分類モデル	`ClassificationNeuralNetwork`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
ニューラルネットワーク分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
サポートベクターマシン (SVM) 分類モデル	`ClassificationSVM`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
サポートベクターマシン (SVM) 分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`

以前のリリースでは、予測子に欠損値がある観測値は再代入と交差検証の計算で省略されていました。

R2022a: 既定以外のコスト行列をもつ `ClassificationSVM` モデルに対して `resubLoss` で異なる値が返される

SVM モデルの入力モデルオブジェクトに学習させるときに既定以外のコスト行列を指定すると、関数 resubLoss で以前のリリースとは異なる値が返されます。

関数 resubLoss は、W プロパティに格納された観測値の重みを使用します。さらに、名前と値の引数 LossFun を "classifcost" または "mincost" として指定した場合、関数は Cost プロパティに格納されたコスト行列を使用します。W プロパティと Cost プロパティの値を関数で使用する方法については変更されていません。ただし、既定以外のコスト行列をもつ ClassificationSVM モデルオブジェクトについて入力モデルオブジェクトに格納されるプロパティの値が変更されたため、関数から異なる値が返されることがあります。

プロパティの値の変更に関する詳細については、Cost プロパティにユーザー指定のコスト行列を格納を参照してください。

ソフトウェアでコスト行列、事前確率、および観測値の重みを以前のリリースと同じように扱う場合は、誤分類コスト行列に応じた事前確率と観測値の重みの調整の説明に従って、既定以外のコスト行列の事前確率と観測値の重みを調整します。その後、分類モデルに学習させるときに、調整後の事前確率と観測値の重みを名前と値の引数 Prior と Weights を使用して指定し、既定のコスト行列を使用します。

R2022a: `ClassificationGAM` および `ClassificationNeuralNetwork` の `LossFun` の既定値の変更

R2022a 以降では、一般化加法モデル (GAM) とニューラルネットワークモデルの両方について、名前と値の引数 LossFun の既定値が変更され、分類オブジェクトで事後確率を分類スコアに使用する場合に関数 resubLoss が "mincost" オプション (最小予測誤分類コスト) を既定で使用するようになりました。

入力モデルオブジェクト Mdl が ClassificationGAM オブジェクトである場合、Mdl の ScoreTransform プロパティ (Mdl.ScoreTransform) が 'logit' であれば既定値は "mincost"、それ以外であれば既定値は "classiferror" です。
Mdl が ClassificationNeuralNetwork オブジェクトの場合、既定値は "mincost" です。

以前のリリースでは、既定値は "classiferror" でした。

既定のコスト行列 (正しい分類の場合の要素値は 0、誤った分類の場合の要素値は 1) を使用する場合、コードに変更を加える必要はありません。"mincost" オプションは既定のコスト行列の "classiferror" オプションと等価になります。

参考

resubPredict | resubMargin | resubEdge

resubLoss

構文

説明

例

単純ベイズ分類器の再代入損失の決定

SVM 分類器の再代入ヒンジ損失の特定

分類損失の検査による GAM の比較

入力引数

Mdl — 分類機械学習モデル 完全な分類モデル オブジェクト

名前と値の引数

IncludeInteractions — 交互作用項を含むというフラグ true | false

LossFun — 損失関数 'binodeviance' | 'classifcost' | 'classiferror' | 'crossentropy' | 'exponential' | 'hinge' | 'logit' | 'mincost' | 'quadratic' | 関数ハンドル

詳細

分類損失

アルゴリズム

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2023b: 予測子に欠損値がある観測値を再代入と交差検証の計算に使用

R2022a: 既定以外のコスト行列をもつ ClassificationSVM モデルに対して resubLoss で異なる値が返される

R2022a: ClassificationGAM および ClassificationNeuralNetwork の LossFun の既定値の変更

参考

`Mdl` — 分類機械学習モデル
完全な分類モデルオブジェクト

`IncludeInteractions` — 交互作用項を含むというフラグ
`true` | `false`

`LossFun` — 損失関数
`'binodeviance'` | `'classifcost'` | `'classiferror'` | `'crossentropy'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | 関数ハンドル

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

R2022a: 既定以外のコスト行列をもつ `ClassificationSVM` モデルに対して `resubLoss` で異なる値が返される

R2022a: `ClassificationGAM` および `ClassificationNeuralNetwork` の `LossFun` の既定値の変更