resubMargin

マルチクラス誤り訂正出力符号 (ECOC) モデルの再代入分類マージン

構文

m = resubMargin(Mdl)

m = resubMargin(Mdl,Name,Value)

説明

m = resubMargin(Mdl) は、Mdl.X に格納されている学習データと Mdl.Y に格納されている対応するクラスラベルを使用して、マルチクラス誤り訂正出力符号 (ECOC) モデル Mdl の再代入分類マージン (m) を返します。

m は、Mdl.Y と同じ長さの数値列ベクトルとして返されます。m の各エントリの推定は、学習させた ECOC モデル Mdl、Mdl.X の対応する行、真のクラスラベル Mdl.Y を使用して実行されます。

m = resubMargin(Mdl,Name,Value) は、1 つ以上の名前と値のペアの引数で指定された追加オプションを使用して、分類マージンを返します。たとえば、復号化方式、バイナリ学習器の損失関数、詳細レベルを指定できます。

例

すべて折りたたむ

ECOC モデルの再代入分類マージン

ライブスクリプトを開く

SVM バイナリ学習器による ECOC モデルの再代入分類マージンを計算します。

フィッシャーのアヤメのデータセットを読み込みます。予測子データ X と応答データ Y を指定します。

load fisheriris
X = meas;
Y = species;

SVM バイナリ分類器を使用して ECOC モデルを学習させます。SVM テンプレートを使用して予測子を標準化し、クラスの順序を指定します。

t = templateSVM('Standardize',true);
classOrder = unique(Y)

classOrder = 3x1 cell
    {'setosa'    }
    {'versicolor'}
    {'virginica' }

Mdl = fitcecoc(X,Y,'Learners',t,'ClassNames',classOrder);

t は SVM テンプレートオブジェクトです。学習時は、t の空のプロパティに対して既定値が使用されます。Mdl は ClassificationECOC モデルです。

Mdl の学習に使用した観測値の分類マージンを計算します。箱ひげ図を使用してマージンの分布を表示します。

m = resubMargin(Mdl);

boxplot(m)
title('In-Sample Margins')

Figure contains an axes object. The axes object with title In-Sample Margins contains 7 objects of type line. One or more of the lines displays its values using only markers

観測値の分類マージンは、符号を反転した陽性クラスの損失から符号を反転した陰性クラスの最大損失を減算した値です。マージンが比較的大きくなる分類器を選択します。

学習標本マージンの検査による ECOC モデルの特徴量の選択

ライブスクリプトを開く

複数のモデルによる学習標本マージンを比較することにより、特徴選択を実行します。この比較のみに基づくと、マージンが最大である分類器が最良の分類器です。

フィッシャーのアヤメのデータセットを読み込みます。次の 2 つのデータセットを定義します。

fullX には 4 つすべての予測子が含まれます。
partX にはがく片の測定値のみが含まれます。

load fisheriris
X = meas;
fullX = X;
partX = X(:,1:2);
Y = species;

各予測子セットについて SVM バイナリ学習器を使用する ECOC モデルに学習をさせます。SVM テンプレートを使用して予測子を標準化し、クラスの順序を指定して、事後確率を計算します。

t = templateSVM('Standardize',true);
classOrder = unique(Y)

classOrder = 3x1 cell
    {'setosa'    }
    {'versicolor'}
    {'virginica' }

FullMdl = fitcecoc(fullX,Y,'Learners',t,'ClassNames',classOrder,...
    'FitPosterior',true);
PartMdl = fitcecoc(partX,Y,'Learners',t,'ClassNames',classOrder,...
    'FitPosterior',true);

各分類器の再代入マージンを計算します。モデルごとに箱ひげ図を使用してマージンの分布を表示します。

fullMargins = resubMargin(FullMdl);
partMargins = resubMargin(PartMdl);

boxplot([fullMargins partMargins],'Labels',{'All Predictors','Two Predictors'})
title('Training-Sample Margins')

Figure contains an axes object. The axes object with title Training-Sample Margins contains 14 objects of type line. One or more of the lines displays its values using only markers

FullMdl のマージンの分布は、PartMdl のマージンの分布よりも高い位置にあり、変動性がより少なくなっています。この結果は、すべての予測子によって学習をさせたモデルの方が、学習データの当てはめが優れていることを示しています。

入力引数

すべて折りたたむ

`Mdl` — 学習済みの完全なマルチクラス ECOC モデル
`ClassificationECOC` モデル

学習済みの完全なマルチクラス ECOC モデル。fitcecoc によって学習をさせた ClassificationECOC モデルを指定します。

名前と値の引数

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで Name は引数名、Value は対応する値です。名前と値の引数は他の引数の後ろにする必要がありますが、ペアの順序は関係ありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: resubMargin(Mdl,'Verbose',1) は、診断メッセージをコマンドウィンドウに表示するよう指定します。

`BinaryLoss` — バイナリ学習器損失関数
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | 関数ハンドル

バイナリ学習器の損失関数。'BinaryLoss' と組み込みの損失関数名または関数ハンドルから構成されるコンマ区切りのペアとして指定します。

次の表で、組み込み関数について説明します。ここで、y_j は特定のバイナリ学習器のクラスラベル (集合 {–1,1,0} 内)、s_j は観測値 j のスコア、g(y_j,s_j) はバイナリ損失の式です。

値	説明	スコア領域	g(y_j,s_j)
`"binodeviance"`	二項分布からの逸脱度	(–∞,∞)	log[1 + exp(–2y_js_j)]/[2log(2)]
`"exponential"`	指数	(–∞,∞)	exp(–y_js_j)/2
`"hamming"`	ハミング	[0,1] または (–∞,∞)	[1 – sign(y_js_j)]/2
`"hinge"`	ヒンジ	(–∞,∞)	max(0,1 – y_js_j)/2
`"linear"`	線形	(–∞,∞)	(1 – y_js_j)/2
`"logit"`	ロジスティック	(–∞,∞)	log[1 + exp(–y_js_j)]/[2log(2)]
`"quadratic"`	2 次	[0,1]	[1 – y_j(2s_j – 1)]²/2

バイナリ損失は、y_j = 0 の場合に損失が 0.5 になるように正規化されます。また、各クラスについて平均のバイナリ損失が計算されます[1]。

カスタムバイナリ損失関数の場合は関数ハンドルを指定します。たとえば、customFunction の場合は 'BinaryLoss',@customFunction を指定します。
customFunction の形式は次のとおりです。
```
bLoss = customFunction(M,s)
```
- M は Mdl.CodingMatrix に格納された K 行 B 列の符号化行列です。
- s は 1 行 B 列の分類スコアの行ベクトルです。
- bLoss は分類損失です。このスカラーは、特定のクラスのすべての学習器についてバイナリ損失を集計します。たとえば、平均バイナリ損失を使用して、各クラスの学習器の損失を集計できます。
- K は、クラスの数です。
- B はバイナリ学習器の数です。
カスタムなバイナリ損失関数を渡す例については、カスタムバイナリ損失関数の使用による ECOC モデルのテスト標本ラベルの予測を参照してください。

次の表に BinaryLoss の既定値を示します。既定値は、バイナリ学習器が返すスコアの範囲によって異なります。

仮定	既定値
すべてのバイナリ学習器が次のいずれかである。分類決定木判別分析モデル k 最近傍モデルロジスティック回帰学習器の線形またはカーネル分類モデル単純ベイズモデル	`'quadratic'`
すべてのバイナリ学習器が SVM であるか、SVM 学習器の線形またはカーネル分類モデルである。	`'hinge'`
すべてのバイナリ学習器が、`AdaboostM1` または `GentleBoost` によって学習をさせたアンサンブルである。	`'exponential'`
すべてのバイナリ学習器が、`LogitBoost` によって学習をさせたアンサンブルである。	`'binodeviance'`
`fitcecoc` で `'FitPosterior',true` を設定して、クラスの事後確率を予測するように指定している。	`'quadratic'`
バイナリ学習器が異種混合で、さまざまな損失関数を使用している。	`'hamming'`

既定値を確認するには、コマンドラインでドット表記を使用して学習済みモデルの BinaryLoss プロパティを表示します。

例: 'BinaryLoss','binodeviance'

データ型: char | string | function_handle

`Decoding` — 復号化スキーム
`'lossweighted'` (既定値) | `'lossbased'`

バイナリ損失を集計する復号化方式。'Decoding' と 'lossweighted' または 'lossbased' から構成されるコンマ区切りのペアとして指定します。詳細は、バイナリ損失を参照してください。

例: 'Decoding','lossbased'

`Options` — 推定オプション
`[]` (既定値) | `statset` によって返される構造体配列

推定オプション。statset により返される 'Options' と構造体配列から構成されるコンマ区切りのペアとして指定します。

並列計算を起動するには、以下を行います。

Parallel Computing Toolbox™ ライセンスが必要です。
'Options',statset('UseParallel',true) を指定します。

`Verbose` — 詳細レベル
`0` (既定値) | `1`

詳細レベル。'Verbose' と 0 または 1 から構成されるコンマ区切りのペアとして指定します。Verbose は、コマンドウィンドウに表示される診断メッセージの量を制御します。

Verbose が 0 の場合、診断メッセージは表示されません。それ以外の場合は、診断メッセージが表示されます。

例: 'Verbose',1

データ型: single | double

詳細

すべて折りたたむ

分類マージン

"分類マージン" は、各観測値における真のクラスの負の損失と偽のクラスの負の最大損失の差です。各マージンのスケールが同じである場合、マージンを分類の信頼尺度として使用できます。複数の分類器の中で、マージンが大きい分類器の方が優れています。

バイナリ損失

"バイナリ損失" は、バイナリ学習器がどの程度の精度で観測値をクラスに分類するかを決定する、クラスと分類スコアの関数です。ソフトウェアでバイナリ損失をどのように集計して各観測値の予測クラスを判定するかは、ECOC モデルの "復号化方式" で指定します。

以下のように仮定します。

m_kj は符号化設計行列 M の要素 (k,j)、つまりバイナリ学習器 j のクラス k に対応する符号。M は K 行 B 列の行列であり、K はクラスの数、B はバイナリ学習器の数です。
s_j は観測値に対するバイナリ学習器 j のスコア。
g はバイナリ損失関数。
$\hat{k}$ は観測値の予測クラス。

ソフトウェアでは 2 つの復号化方式をサポートしています。

"損失に基づく復号化" [2] (Decoding が 'lossbased') — 観測値の予測クラスは、すべてのバイナリ学習器におけるバイナリ損失の平均が最小になるクラスに対応します。

$\hat{k} = \underset{k}{argmin} \frac{1}{B} \sum_{j = 1}^{B} | m_{k j} | g (m_{k j}, s_{j}) .$
"損失に重みを付けた復号化" [3] (Decoding が 'lossweighted') — 観測値の予測クラスは、対応するクラスのバイナリ学習器におけるバイナリ損失の平均が最小になるクラスに対応します。

$\hat{k} = \underset{k}{argmin} \frac{\sum_{j = 1}^{B} | m_{k j} | g (m_{k j}, s_{j})}{\sum_{j = 1}^{B} | m_{k j} |} .$
分母はクラス k のバイナリ学習器の数に対応します。[1]によると、すべてのクラスの損失値が同じダイナミックレンジに収まるので、損失に重みを付けた復号化では分類精度が向上します。

関数 predict、resubPredict、および kfoldPredict は、それぞれの観測値とクラスについて、argmin の目的関数の符号反転値を 2 番目の出力引数 (NegLoss) として返します。

次の表は、サポートされる損失関数をまとめたものです。ここで、y_j は特定のバイナリ学習器のクラスラベル (集合 {–1,1,0} 内)、s_j は観測値 j のスコア、g(y_j,s_j) はバイナリ損失関数です。

値	説明	スコア領域	g(y_j,s_j)
`"binodeviance"`	二項分布からの逸脱度	(–∞,∞)	log[1 + exp(–2y_js_j)]/[2log(2)]
`"exponential"`	指数	(–∞,∞)	exp(–y_js_j)/2
`"hamming"`	ハミング	[0,1] または (–∞,∞)	[1 – sign(y_js_j)]/2
`"hinge"`	ヒンジ	(–∞,∞)	max(0,1 – y_js_j)/2
`"linear"`	線形	(–∞,∞)	(1 – y_js_j)/2
`"logit"`	ロジスティック	(–∞,∞)	log[1 + exp(–y_js_j)]/[2log(2)]
`"quadratic"`	2 次	[0,1]	[1 – y_j(2s_j – 1)]²/2

y_j = 0 のときに損失が 0.5 になるようにバイナリ損失が正規化され、バイナリ学習器の平均が集計に使用されます[1]。

ECOC 分類器の全体的な性能の尺度である全体の分類損失 (オブジェクト関数 resubLoss および resubPredict の名前と値の引数 LossFun により指定) とバイナリ損失を混同しないでください。

ヒント

複数の ECOC 分類器のマージンまたはエッジを比較するには、テンプレートオブジェクトを使用して分類器間で共通するスコア変換関数を学習時に指定します。

参照

[1] Allwein, E., R. Schapire, and Y. Singer. “Reducing multiclass to binary: A unifying approach for margin classiﬁers.” Journal of Machine Learning Research. Vol. 1, 2000, pp. 113–141.

[2] Escalera, S., O. Pujol, and P. Radeva. “Separability of ternary codes for sparse designs of error-correcting output codes.” Pattern Recog. Lett. Vol. 30, Issue 3, 2009, pp. 285–297.

[3] Escalera, S., O. Pujol, and P. Radeva. “On the decoding process in ternary error-correcting output codes.” IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 32, Issue 7, 2010, pp. 120–134.

拡張機能

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

並列実行するには、この関数を呼び出すときに名前と値の引数 Options を指定し、statset を使用してオプション構造体の UseParallel フィールドを true に設定します。

Options=statset(UseParallel=true)

並列計算の詳細については、自動並列サポートを使用した MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2014b で導入

参考

resubMargin

構文

説明

例

ECOC モデルの再代入分類マージン

学習標本マージンの検査による ECOC モデルの特徴量の選択

入力引数

Mdl — 学習済みの完全なマルチクラス ECOC モデル ClassificationECOC モデル

名前と値の引数

BinaryLoss — バイナリ学習器損失関数 'hamming' | 'linear' | 'logit' | 'exponential' | 'binodeviance' | 'hinge' | 'quadratic' | 関数ハンドル

Decoding — 復号化スキーム 'lossweighted' (既定値) | 'lossbased'

Options — 推定オプション [] (既定値) | statset によって返される構造体配列

Verbose — 詳細レベル 0 (既定値) | 1

詳細

分類マージン

バイナリ損失

ヒント

参照

拡張機能

自動並列サポート Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

参考

トピック

`Mdl` — 学習済みの完全なマルチクラス ECOC モデル
`ClassificationECOC` モデル

`BinaryLoss` — バイナリ学習器損失関数
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | 関数ハンドル

`Decoding` — 復号化スキーム
`'lossweighted'` (既定値) | `'lossbased'`

`Options` — 推定オプション
`[]` (既定値) | `statset` によって返される構造体配列

`Verbose` — 詳細レベル
`0` (既定値) | `1`

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。