resubEdge

再代入分類エッジ

構文

e = resubEdge(Mdl)

e = resubEdge(Mdl,'IncludeInteractions',includeInteractions)

説明

e = resubEdge(Mdl) は、Mdl.X に格納されている予測子データ、Mdl.Y に格納されている対応する真のクラスラベル、Mdl.W に格納されている観測値の重みを使用して、学習済み分類モデル Mdl の重み付きの再代入分類エッジ(e) を返します。

例

e = resubEdge(Mdl,'IncludeInteractions',includeInteractions) は、計算に交互作用項を含めるかどうかを指定します。この構文は一般化加法モデルにのみ適用されます。

例

すべて折りたたむ

SVM 分類器の再代入エッジの推定

ライブスクリプトを開く

ionosphere データセットを読み込みます。このデータセットには、レーダー反射についての 34 個の予測子と、不良 ('b') または良好 ('g') という 351 個の二項反応が含まれています。

load ionosphere

サポートベクターマシン (SVM) 分類器に学習させます。データを標準化し、'g' が陽性クラスであることを指定します。

SVMModel = fitcsvm(X,Y,'Standardize',true,'ClassNames',{'b','g'});

SVMModel は学習させた ClassificationSVM 分類器です。

再代入エッジ (学習標本マージンの平均) を推定します。

e = resubEdge(SVMModel)

e = 5.0999

標本内エッジの比較による単純ベイズ分類器の特徴の選択

ライブスクリプトを開く

分類器エッジは、分類器マージンの平均を測定します。特徴選択を行う方法のひとつとして、複数のモデルからの学習標本エッジを比較します。この条件のみに基づくと、エッジが最高となる分類器が最善の分類器となります。

ionosphere データセットを読み込みます。安定させるため、最初の 2 つの予測子を削除します。

load ionosphere
X = X(:,3:end);

次の 2 つのデータセットを定義します。

fullX にはすべての予測子が含まれます。
partX には上位 10 個の最も重要な予測子が含まれます。

fullX = X;
idx = fscmrmr(X,Y);
partX = X(:,idx(1:10));

各予測子セットの単純ベイズ分類器に学習させます。

FullMdl = fitcnb(fullX,Y);
PartMdl = fitcnb(partX,Y);

FullMdl と PartMdl は、学習済みの ClassificationNaiveBayes 分類器です。

分類器ごとに学習標本エッジを推定します。

fullEdge = resubEdge(FullMdl)

fullEdge = 0.6554

partEdge = resubEdge(PartMdl)

partEdge = 0.7796

上位 10 個の最も重要な予測子で学習させた分類器のエッジの方が大きくなります。この結果は、これらの予測子だけを使用して学習させた分類器の標本内近似の方が優れていることを示しています。

学習標本マージンおよびエッジの検査による GAM の比較

ライブスクリプトを開く

学習標本マージンおよびエッジを調べて、線形項が含まれる一般化加法モデル (GAM) を線形項と交互作用項の両方が含まれる GAM と比較します。この比較のみに基づくと、マージンおよびエッジが最大である分類器が最良のモデルです。

census1994.mat に保存されている 1994 年の国勢調査データを読み込みます。このデータセットは、個人の年収が $50,000 を超えるかどうかを予測するための、米国勢調査局の人口統計データから構成されます。この分類タスクでは、年齢、労働階級、教育レベル、婚姻区分、人種などが与えられた人の給与カテゴリを予測するモデルを当てはめます。

load census1994

census1994 には学習データセット adultdata およびテストデータセット adulttest が含まれています。この例では、実行時間を短縮するために、関数datasampleを使用して adultdata から 500 の学習観測値をサブサンプリングします。

rng('default') % For reproducibility
NumSamples = 5e2;
adultdata = datasample(adultdata,NumSamples,'Replace',false);

予測子の線形項と交互作用項の両方が格納されている GAM に学習させます。p 値が 0.05 以下である利用可能な交互作用項をすべて含めるように指定します。

Mdl = fitcgam(adultdata,'salary','Interactions','all','MaxPValue',0.05)

Mdl = 
  ClassificationGAM
           PredictorNames: {'age'  'workClass'  'fnlwgt'  'education'  'education_num'  'marital_status'  'occupation'  'relationship'  'race'  'sex'  'capital_gain'  'capital_loss'  'hours_per_week'  'native_country'}
             ResponseName: 'salary'
    CategoricalPredictors: [2 4 6 7 8 9 10 14]
               ClassNames: [<=50K    >50K]
           ScoreTransform: 'logit'
                Intercept: -28.5594
             Interactions: [82x2 double]
          NumObservations: 500

Mdl は ClassificationGAM モデルオブジェクトです。Mdl には 82 個の交互作用項が含まれています。

Mdl の学習標本マージンおよびエッジを推定します。

M = resubMargin(Mdl);
E = resubEdge(Mdl)

E = 1.0000

交互作用項を含めずに Mdl の学習標本マージンおよびエッジを推定します。

M_nointeractions = resubMargin(Mdl,'IncludeInteractions',false);
E_nointeractions = resubEdge(Mdl,'IncludeInteractions',false)

E_nointeractions = 0.9516

箱ひげ図を使用してマージンの分布を表示します。

boxplot([M M_nointeractions],'Labels',{'Linear and Interaction Terms','Linear Terms Only'})
title('Box Plots of Training Sample Margins')

Figure contains an axes object. The axes object with title Box Plots of Training Sample Margins contains 14 objects of type line. One or more of the lines displays its values using only markers

計算に交互作用項を含める場合は、Mdl のすべての再代入マージン値が 1、再代入エッジ値 (マージンの平均) が 1 になります。Mdl に交互作用項を含めない場合、マージンおよびエッジは小さくなります。

入力引数

すべて折りたたむ

`Mdl` — 分類機械学習モデル
完全な分類モデルオブジェクト

分類機械学習モデル。完全な分類モデルオブジェクトとして指定します。サポートされるモデルは次の表に記載されています。

モデル	分類モデルオブジェクト
一般化加法モデル	`ClassificationGAM`
k 最近傍モデル	`ClassificationKNN`
単純ベイズモデル	`ClassificationNaiveBayes`
ニューラルネットワークモデル	`ClassificationNeuralNetwork`
1 クラスおよびバイナリ分類用のサポートベクターマシン	`ClassificationSVM`

`includeInteractions` — 交互作用項を含むというフラグ
`true` | `false`

モデルの交互作用項を含むというフラグ。true または false として指定します。この引数は、一般化加法モデル (GAM) の場合のみ有効です。つまり、この引数を指定できるのは、Mdl が ClassificationGAM である場合だけです。

Mdl に交互作用項が含まれる場合、既定値は true です。モデルに交互作用項が含まれない場合、値は false でなければなりません。

データ型: logical

詳細

すべて折りたたむ

分類エッジ

"分類エッジ" は、分類マージンの加重平均です。

特徴選択を実行する場合などに複数の分類器から選択する方法の 1 つは、エッジが最大になる分類器を選択することです。

分類マージン

バイナリ分類の "分類マージン" は、各観測値における真のクラスの分類スコアと偽のクラスの分類スコアの差です。マルチクラス分類の "分類マージン" は、真のクラスの分類スコアと偽のクラスの最大分類スコアの差を表します。

各マージンのスケールが同じである場合 (つまり、スコア値が同じスコア変換に基づく場合)、マージンを分類の信頼尺度として使用できます。複数の分類器の中で、マージンが大きい分類器の方が優れています。

アルゴリズム

resubEdge は、オブジェクト (Mdl) の対応する関数 edge に従って分類エッジを計算します。モデル固有の説明については、次の表に示す関数 edge のリファレンスページを参照してください。

モデル	分類モデルオブジェクト (`Mdl`)	オブジェクト関数 `edge`
一般化加法モデル	`ClassificationGAM`	`edge`
k 最近傍モデル	`ClassificationKNN`	`edge`
単純ベイズモデル	`ClassificationNaiveBayes`	`edge`
ニューラルネットワークモデル	`ClassificationNeuralNetwork`	`edge`
1 クラスおよびバイナリ分類用のサポートベクターマシン	`ClassificationSVM`	`edge`

拡張機能

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

使用上の注意事項および制限事項:

この関数は、ClassificationKNN または ClassificationSVM オブジェクトとして指定した学習済み分類モデルの GPU 配列を完全にサポートします。

詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2012a で導入

すべて展開する

R2023b: 予測子に欠損値がある観測値を再代入と交差検証の計算に使用

R2023b 以降では、次の分類モデルのオブジェクト関数において、予測子に欠損値がある観測値が再代入 ("resub") と交差検証 ("kfold") による分類エッジ、損失、マージン、および予測の計算でその一部として使用されます。

モデルタイプ	モデルオブジェクト	オブジェクト関数
判別分析分類モデル	`ClassificationDiscriminant`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
判別分析分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
分類用の判別分析学習器のアンサンブル	`ClassificationEnsemble`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
分類用の判別分析学習器のアンサンブル	`ClassificationPartitionedEnsemble`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ガウスカーネル分類モデル	`ClassificationPartitionedKernel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ガウスカーネル分類モデル	`ClassificationPartitionedKernelECOC`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
線形分類モデル	`ClassificationPartitionedLinear`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
線形分類モデル	`ClassificationPartitionedLinearECOC`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
ニューラルネットワーク分類モデル	`ClassificationNeuralNetwork`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
ニューラルネットワーク分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`
サポートベクターマシン (SVM) 分類モデル	`ClassificationSVM`	`resubEdge`, `resubLoss`, `resubMargin`, `resubPredict`
サポートベクターマシン (SVM) 分類モデル	`ClassificationPartitionedModel`	`kfoldEdge`, `kfoldLoss`, `kfoldMargin`, `kfoldPredict`

以前のリリースでは、予測子に欠損値がある観測値は再代入と交差検証の計算で省略されていました。

R2022a: 既定以外のコスト行列をもつ `ClassificationSVM` モデルに対して `resubEdge` で異なる値が返される

SVM モデルの入力モデルオブジェクトに学習させるときに既定以外のコスト行列を指定すると、関数 resubEdge で以前のリリースとは異なる値が返されます。

関数 resubEdge は、W プロパティに格納された観測値の重みを使用します。W プロパティの値を関数で使用する方法については変更されていません。ただし、既定以外のコスト行列をもつ ClassificationSVM モデルオブジェクトについて入力モデルオブジェクトに格納されるプロパティの値が変更されたため、関数から異なる値が返されることがあります。

プロパティの値の変更に関する詳細については、Cost プロパティにユーザー指定のコスト行列を格納を参照してください。

ソフトウェアでコスト行列、事前確率、および観測値の重みを以前のリリースと同じように扱う場合は、誤分類コスト行列に応じた事前確率と観測値の重みの調整の説明に従って、既定以外のコスト行列の事前確率と観測値の重みを調整します。その後、分類モデルに学習させるときに、調整後の事前確率と観測値の重みを名前と値の引数 Prior と Weights を使用して指定し、既定のコスト行列を使用します。

参考

resubPredict | resubLoss | resubMargin

resubEdge

構文

説明

例

SVM 分類器の再代入エッジの推定

標本内エッジの比較による単純ベイズ分類器の特徴の選択

学習標本マージンおよびエッジの検査による GAM の比較

入力引数

Mdl — 分類機械学習モデル 完全な分類モデル オブジェクト

includeInteractions — 交互作用項を含むというフラグ true | false

詳細

分類エッジ

分類マージン

アルゴリズム

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2023b: 予測子に欠損値がある観測値を再代入と交差検証の計算に使用

R2022a: 既定以外のコスト行列をもつ ClassificationSVM モデルに対して resubEdge で異なる値が返される

参考

`Mdl` — 分類機械学習モデル
完全な分類モデルオブジェクト

`includeInteractions` — 交互作用項を含むというフラグ
`true` | `false`

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

R2022a: 既定以外のコスト行列をもつ `ClassificationSVM` モデルに対して `resubEdge` で異なる値が返される