kfoldMargin

交差検証済み ECOC モデルの分類マージン

構文

margin = kfoldMargin(CVMdl)

margin = kfoldMargin(CVMdl,Name,Value)

説明

margin = kfoldMargin(CVMdl) は、交差検証済み ECOC モデル (ClassificationPartitionedECOC) CVMdl によって取得した分類マージンを返します。kfoldMargin は、すべての分割について、学習分割観測値に対して学習をさせた ECOC モデルを使用して、検証分割観測値の分類マージンを計算します。CVMdl.X には、両方の観測値のセットが含まれます。

例

margin = kfoldMargin(CVMdl,Name,Value) は、1 つ以上の名前と値のペアの引数で指定された追加オプションを使用して、分類マージンを返します。たとえば、バイナリ学習器の損失関数、復号化スキームまたは詳細レベルを指定します

例

すべて折りたたむ

k 分割交差検証マージンの推定

ライブスクリプトを開く

フィッシャーのアヤメのデータセットを読み込みます。予測子データ X、応答データ Y、および Y 内のクラスの順序を指定します。

load fisheriris
X = meas;
Y = categorical(species);
classOrder = unique(Y);
rng(1); % For reproducibility

サポートベクターマシン (SVM) バイナリ分類器を使用して、ECOC モデルの学習と交差検証を行います。SVM テンプレートを使用して予測子データを標準化し、クラスの順序を指定します。

t = templateSVM('Standardize',1);
CVMdl = fitcecoc(X,Y,'CrossVal','on','Learners',t,'ClassNames',classOrder);

CVMdl は ClassificationPartitionedECOC モデルです。既定では、10 分割交差検証が実行されます。名前と値のペアの引数 'KFold' を使用して異なる分割数を指定できます。

検証分割観測値のマージンを推定します。箱ひげ図を使用してマージンの分布を表示します。

margin = kfoldMargin(CVMdl);

boxplot(margin)
title('Distribution of Margins')

Figure contains an axes object. The axes object with title Distribution of Margins contains 7 objects of type line. One or more of the lines displays its values using only markers

交差検証マージンの比較による ECOC モデル特徴の選択

ライブスクリプトを開く

特徴選択を行う方法のひとつとして、複数のモデルからの交差検証マージンを比較します。この条件のみに基づくと、マージンが最大である分類器が最善の分類器となります。

フィッシャーのアヤメのデータセットを読み込みます。予測子データ X、応答データ Y、および Y 内のクラスの順序を指定します。

load fisheriris
X = meas;
Y = categorical(species);
classOrder = unique(Y); % Class order
rng(1); % For reproducibility

次の 2 つのデータセットを定義します。

fullX にはすべての予測子が含まれます。
partX には花弁の寸法が含まれます。

fullX = X;
partX = X(:,3:4);

各予測子セットについて、SVM バイナリ分類器を使用して ECOC モデルの学習と交差検証を行います。SVM テンプレートを使用して予測子を標準化し、クラスの順序を指定します。

t = templateSVM('Standardize',1);
CVMdl = fitcecoc(fullX,Y,'CrossVal','on','Learners',t,...
    'ClassNames',classOrder);
PCVMdl = fitcecoc(partX,Y,'CrossVal','on','Learners',t,...
    'ClassNames',classOrder);

CVMdl および PCVMdl は ClassificationPartitionedECOC モデルです。既定では、10 分割交差検証が実行されます。

各分類器のマージンを推定します。バイナリ学習器の結果の集約に、損失に基づく復号化を使用します。モデルごとに箱ひげ図を使用してマージンの分布を表示します。

fullMargins = kfoldMargin(CVMdl,'Decoding','lossbased');
partMargins = kfoldMargin(PCVMdl,'Decoding','lossbased');

boxplot([fullMargins partMargins],'Labels',{'All Predictors','Two Predictors'})
title('Distributions of Margins')

Figure contains an axes object. The axes object with title Distributions of Margins contains 14 objects of type line. One or more of the lines displays its values using only markers

マージンの分布はほぼ同じです。

入力引数

すべて折りたたむ

`CVMdl` — 交差検証 ECOC モデル
`ClassificationPartitionedECOC` モデル

交差検証 ECOC モデル。ClassificationPartitionedECOC モデルとして指定します。ClassificationPartitionedECOC モデルは 2 つの方法で作成できます。

学習済みの ECOC モデル (ClassificationECOC) を crossval に渡します。
fitcecoc を使用して ECOC モデルに学習をさせ、交差検証の名前と値のペアの引数 'CrossVal'、'CVPartition'、'Holdout'、'KFold'、'Leaveout' のいずれかを指定します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: kfoldMargin(CVMdl,'Verbose',1) は、診断メッセージをコマンドウィンドウに表示するよう指定します。

`BinaryLoss` — バイナリ学習器損失関数
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | 関数ハンドル

バイナリ学習器の損失関数。'BinaryLoss' と組み込みの損失関数名または関数ハンドルから構成されるコンマ区切りのペアとして指定します。

次の表で、組み込み関数について説明します。ここで、y_j は特定のバイナリ学習器のクラスラベル (集合 {–1,1,0} 内)、s_j は観測値 j のスコア、g(y_j,s_j) はバイナリ損失の式です。

値	説明	スコア領域	g(y_j,s_j)
`"binodeviance"`	二項分布からの逸脱度	(–∞,∞)	log[1 + exp(–2y_js_j)]/[2log(2)]
`"exponential"`	指数	(–∞,∞)	exp(–y_js_j)/2
`"hamming"`	ハミング	[0,1] または (–∞,∞)	[1 – sign(y_js_j)]/2
`"hinge"`	ヒンジ	(–∞,∞)	max(0,1 – y_js_j)/2
`"linear"`	線形	(–∞,∞)	(1 – y_js_j)/2
`"logit"`	ロジスティック	(–∞,∞)	log[1 + exp(–y_js_j)]/[2log(2)]
`"quadratic"`	2 次	[0,1]	[1 – y_j(2s_j – 1)]²/2

バイナリ損失は、y_j = 0 の場合に損失が 0.5 になるように正規化されます。また、各クラスについて平均のバイナリ損失が計算されます[1]。

カスタムバイナリ損失関数の場合は関数ハンドルを指定します。たとえば、customFunction の場合は 'BinaryLoss',@customFunction を指定します。
customFunction の形式は次のとおりです。
```
bLoss = customFunction(M,s)
```
- M は Mdl.CodingMatrix に格納された K 行 B 列の符号化行列です。
- s は 1 行 B 列の分類スコアの行ベクトルです。
- bLoss は分類損失です。このスカラーは、特定のクラスのすべての学習器についてバイナリ損失を集計します。たとえば、平均バイナリ損失を使用して、各クラスの学習器の損失を集計できます。
- K は、クラスの数です。
- B はバイナリ学習器の数です。
カスタムなバイナリ損失関数を渡す例については、カスタムバイナリ損失関数の使用による ECOC モデルのテスト標本ラベルの予測を参照してください。

次の表に BinaryLoss の既定値を示します。既定値は、バイナリ学習器が返すスコアの範囲によって異なります。

仮定	既定値
すべてのバイナリ学習器が次のいずれかである。分類決定木判別分析モデル k 最近傍モデル単純ベイズモデル	`'quadratic'`
すべてのバイナリ学習器が SVM である。	`'hinge'`
すべてのバイナリ学習器が、`AdaboostM1` または `GentleBoost` によって学習をさせたアンサンブルである。	`'exponential'`
すべてのバイナリ学習器が、`LogitBoost` によって学習をさせたアンサンブルである。	`'binodeviance'`
`fitcecoc` で `'FitPosterior',true` を設定して、クラスの事後確率を予測するように指定している。	`'quadratic'`
バイナリ学習器が異種混合で、さまざまな損失関数を使用している。	`'hamming'`

既定値を確認するには、コマンドラインでドット表記を使用して学習済みモデルの BinaryLoss プロパティを表示します。

例: 'BinaryLoss','binodeviance'

データ型: char | string | function_handle

`Decoding` — 復号化スキーム
`'lossweighted'` (既定値) | `'lossbased'`

バイナリ損失を集計する復号化方式。'Decoding' と 'lossweighted' または 'lossbased' から構成されるコンマ区切りのペアとして指定します。詳細については、バイナリ損失を参照してください。

例: 'Decoding','lossbased'

`Options` — 推定オプション
`[]` (既定値) | 構造体配列

推定オプション。statset によって返される構造体配列として指定します。

並列計算を起動するには、Parallel Computing Toolbox™ ライセンスが必要です。

例: Options=statset(UseParallel=true)

データ型: struct

`Verbose` — 詳細レベル
`0` (既定値) | `1`

詳細レベル。0 または 1 として指定します。Verbose は、コマンドウィンドウに表示される診断メッセージの量を制御します。

Verbose が 0 の場合、診断メッセージは表示されません。それ以外の場合は、診断メッセージが表示されます。

例: Verbose=1

データ型: single | double

出力引数

すべて折りたたむ

`margin` — 分類マージン
数値ベクトル

分類マージン。数値ベクトルとして返されます。margin は n 行 1 列のベクトルであり、各行は対応する観測のマージンです。n は観測値の個数 (size(CVMdl.X,1)) です。

詳細

すべて折りたたむ

分類マージン

"分類マージン" は、各観測値における真のクラスの負の損失と偽のクラスの負の最大損失の差です。各マージンのスケールが同じである場合、マージンを分類の信頼尺度として使用できます。複数の分類器の中で、マージンが大きい分類器の方が優れています。

バイナリ損失

"バイナリ損失" は、バイナリ学習器がどの程度の精度で観測値をクラスに分類するかを決定する、クラスと分類スコアの関数です。ソフトウェアでバイナリ損失をどのように集計して各観測値の予測クラスを判定するかは、ECOC モデルの "復号化方式" で指定します。

以下のように仮定します。

m_kj は符号化設計行列 M の要素 (k,j)、つまりバイナリ学習器 j のクラス k に対応する符号。M は K 行 B 列の行列であり、K はクラスの数、B はバイナリ学習器の数です。
s_j は観測値に対するバイナリ学習器 j のスコア。
g はバイナリ損失関数。
$\hat{k}$ は観測値の予測クラス。

ソフトウェアでは 2 つの復号化方式をサポートしています。

"損失に基づく復号化" [2] (Decoding が "lossbased") — 観測値の予測クラスは、すべてのバイナリ学習器におけるバイナリ損失の平均が最小になるクラスに対応します。

$\hat{k} = \underset{k}{argmin} \frac{1}{B} \sum_{j = 1}^{B} | m_{k j} | g (m_{k j}, s_{j}) .$
"損失に重みを付けた復号化" [3] (Decoding が "lossweighted") — 観測値の予測クラスは、対応するクラスのバイナリ学習器におけるバイナリ損失の平均が最小になるクラスに対応します。

$\hat{k} = \underset{k}{argmin} \frac{\sum_{j = 1}^{B} | m_{k j} | g (m_{k j}, s_{j})}{\sum_{j = 1}^{B} | m_{k j} |} .$
分母はクラス k のバイナリ学習器の数に対応します。[1]によると、すべてのクラスの損失値が同じダイナミックレンジに収まるので、損失に重みを付けた復号化では分類精度が向上します。

関数 predict、resubPredict、および kfoldPredict は、それぞれの観測値とクラスについて、argmin の目的関数の符号反転値を 2 番目の出力引数 (NegLoss) として返します。

次の表は、サポートされる損失関数をまとめたものです。ここで、y_j は特定のバイナリ学習器のクラスラベル (集合 {–1,1,0} 内)、s_j は観測値 j のスコア、g(y_j,s_j) はバイナリ損失関数です。

値	説明	スコア領域	g(y_j,s_j)
`"binodeviance"`	二項分布からの逸脱度	(–∞,∞)	log[1 + exp(–2y_js_j)]/[2log(2)]
`"exponential"`	指数	(–∞,∞)	exp(–y_js_j)/2
`"hamming"`	ハミング	[0,1] または (–∞,∞)	[1 – sign(y_js_j)]/2
`"hinge"`	ヒンジ	(–∞,∞)	max(0,1 – y_js_j)/2
`"linear"`	線形	(–∞,∞)	(1 – y_js_j)/2
`"logit"`	ロジスティック	(–∞,∞)	log[1 + exp(–y_js_j)]/[2log(2)]
`"quadratic"`	2 次	[0,1]	[1 – y_j(2s_j – 1)]²/2

y_j = 0 のときに損失が 0.5 になるようにバイナリ損失が正規化され、バイナリ学習器の平均が集計に使用されます[1]。

ECOC 分類器の全体的な性能の尺度である全体の分類損失 (オブジェクト関数 kfoldLoss および kfoldPredict の名前と値の引数 LossFun により指定) とバイナリ損失を混同しないでください。

参照

[1] Allwein, E., R. Schapire, and Y. Singer. “Reducing multiclass to binary: A unifying approach for margin classiﬁers.” Journal of Machine Learning Research. Vol. 1, 2000, pp. 113–141.

[2] Escalera, S., O. Pujol, and P. Radeva. “Separability of ternary codes for sparse designs of error-correcting output codes.” Pattern Recog. Lett. Vol. 30, Issue 3, 2009, pp. 285–297.

[3] Escalera, S., O. Pujol, and P. Radeva. “On the decoding process in ternary error-correcting output codes.” IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 32, Issue 7, 2010, pp. 120–134.

拡張機能

すべて展開する

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

並列実行するには、この関数を呼び出すときに名前と値の引数 Options を指定し、statset を使用してオプション構造体の UseParallel フィールドを true に設定します。

Options=statset(UseParallel=true)

並列計算の詳細については、自動並列サポートを使用した MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2014b で導入

参考

kfoldMargin

構文

説明

例

k 分割交差検証マージンの推定

交差検証マージンの比較による ECOC モデル特徴の選択

入力引数

CVMdl — 交差検証 ECOC モデル ClassificationPartitionedECOC モデル

名前と値の引数

BinaryLoss — バイナリ学習器損失関数 'hamming' | 'linear' | 'logit' | 'exponential' | 'binodeviance' | 'hinge' | 'quadratic' | 関数ハンドル

Decoding — 復号化スキーム 'lossweighted' (既定値) | 'lossbased'

Options — 推定オプション [] (既定値) | 構造体配列

Verbose — 詳細レベル 0 (既定値) | 1

出力引数

margin — 分類マージン 数値ベクトル

詳細

分類マージン

バイナリ損失

参照

拡張機能

自動並列サポート Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

参考

`CVMdl` — 交差検証 ECOC モデル
`ClassificationPartitionedECOC` モデル

`BinaryLoss` — バイナリ学習器損失関数
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | 関数ハンドル

`Decoding` — 復号化スキーム
`'lossweighted'` (既定値) | `'lossbased'`

`Options` — 推定オプション
`[]` (既定値) | 構造体配列

`Verbose` — 詳細レベル
`0` (既定値) | `1`

`margin` — 分類マージン
数値ベクトル

自動並列サポート
Parallel Computing Toolbox™ を使用して自動的に並列計算を実行することで、コードを高速化します。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。