メインコンテンツ

resubLoss

マルチクラス誤り訂正出力符号 (ECOC) モデルの再代入分類損失

説明

L = resubLoss(Mdl) は、Mdl.X に格納されている学習データと Mdl.Y に格納されている対応するクラス ラベルを使用して、マルチクラス誤り訂正出力符号 (ECOC) モデル Mdl の再代入による分類損失 (L) を返します。既定では、resubLoss分類誤差を使用して L を計算します。

分類損失 (L) は汎化または再代入の品質に対する尺度です。解釈は損失関数と加重スキームによって異なりますが、一般に、優れた分類器の方が分類損失値が小さくなります。

L = resubLoss(Mdl,Name,Value) は、1 つ以上の名前と値のペアの引数で指定された追加オプションを使用して、分類損失を返します。たとえば、損失関数、復号化方式、詳細レベルなどを指定できます。

すべて折りたたむ

SVM バイナリ学習器による ECOC モデルの再代入損失を計算します。

フィッシャーのアヤメのデータ セットを読み込みます。予測子データ X と応答データ Y を指定します。

load fisheriris
X = meas;
Y = species;

SVM バイナリ分類器を使用して ECOC モデルを学習させます。SVM テンプレートを使用して予測子を標準化し、クラスの順序を指定します。

t = templateSVM('Standardize',true);
classOrder = unique(Y)
classOrder = 3×1 cell
    {'setosa'    }
    {'versicolor'}
    {'virginica' }

Mdl = fitcecoc(X,Y,'Learners',t,'ClassNames',classOrder);

t は SVM テンプレート オブジェクトです。学習時は、t の空のプロパティに対して既定値が使用されます。MdlClassificationECOC モデルです。

再代入分類誤差を推定します。これは既定の分類損失です。

L = resubLoss(Mdl)
L = 
0.0267

この ECOC モデルは、学習標本のアヤメの 2.67% を誤分類します。

各観測値の最小バイナリ損失を考慮するカスタム損失関数を使用して、ECOC モデルの品質を判別します。

フィッシャーのアヤメのデータ セットを読み込みます。予測子データ X、応答データ Y、および Y 内のクラスの順序を指定します。

load fisheriris
X = meas;
Y = categorical(species);
classOrder = unique(Y)  % Class order
classOrder = 3×1 categorical
     setosa 
     versicolor 
     virginica 

rng(1); % For reproducibility

SVM バイナリ分類器を使用して ECOC モデルを学習させます。SVM テンプレートを使用して予測子を標準化し、クラスの順序を指定します。

t = templateSVM('Standardize',true);
Mdl = fitcecoc(X,Y,'Learners',t,'ClassNames',classOrder);

t は SVM テンプレート オブジェクトです。学習時は、t の空のプロパティに対して既定値が使用されます。MdlClassificationECOC モデルです。

各観測値の最小損失を受け入れ、すべての観測値の最小損失の平均を求める、関数を作成します。S は、resubPredict の出力 NegLoss に対応します。

lossfun = @(~,S,~,~)mean(min(-S,[],2));

学習データのカスタム分類損失を計算します。

resubLoss(Mdl,'LossFun',lossfun)
ans = 
0.0097

学習データの平均最小バイナリ損失は 0.0065 です。

入力引数

すべて折りたたむ

学習済みの完全なマルチクラス ECOC モデル。fitcecoc によって学習をさせた ClassificationECOC モデルを指定します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: resubLoss(Mdl,'BinaryLoss','hamming','LossFun',@lossfun) は、バイナリ学習器の損失関数として 'hamming' を、全体的な損失関数としてカスタム関数ハンドル @lossfun を指定します。

バイナリ学習器損失関数。組み込みの損失関数の名前または関数ハンドルとして指定します。

  • 次の表で、組み込み関数について説明します。ここで、yj は特定のバイナリ学習器のクラス ラベル (集合 {–1,1,0} 内)、sj は観測値 j のスコア、g(yj,sj) はバイナリ損失の式です。

    説明スコア領域g(yj,sj)
    "binodeviance"二項分布からの逸脱度(–∞,∞)log[1 + exp(–2yjsj)]/[2log(2)]
    "exponential"指数(–∞,∞)exp(–yjsj)/2
    "hamming"ハミング[0,1] または (–∞,∞)[1 – sign(yjsj)]/2
    "hinge"ヒンジ(–∞,∞)max(0,1 – yjsj)/2
    "linear"線形(–∞,∞)(1 – yjsj)/2
    "logit"ロジスティック(–∞,∞)log[1 + exp(–yjsj)]/[2log(2)]
    "quadratic"2 次[0,1][1 – yj(2sj – 1)]2/2

    バイナリ損失は、yj = 0 の場合に損失が 0.5 になるように正規化されます。また、各クラスについて平均のバイナリ損失が計算されます[1]

  • カスタム バイナリ損失関数の場合は関数ハンドルを指定します。たとえば、customFunction の場合は BinaryLoss=@customFunction を指定します。

    customFunction の形式は次のとおりです。

    bLoss = customFunction(M,s)

    • MMdl.CodingMatrix に格納された KB 列の符号化行列です。

    • s は 1 行 B 列の分類スコアの行ベクトルです。

    • bLoss は分類損失です。このスカラーは、特定のクラスのすべての学習器についてバイナリ損失を集計します。たとえば、平均バイナリ損失を使用して、各クラスの学習器の損失を集計できます。

    • K は、クラスの数です。

    • B はバイナリ学習器の数です。

    カスタムなバイナリ損失関数を渡す例については、カスタム バイナリ損失関数の使用による ECOC モデルのテスト標本ラベルの予測を参照してください。

次の表に BinaryLoss の既定値を示します。既定値は、バイナリ学習器が返すスコアの範囲によって異なります。

仮定既定値

すべてのバイナリ学習器が次のいずれかである。

  • 分類決定木

  • 判別分析モデル

  • k 最近傍モデル

  • ロジスティック回帰学習器の線形またはカーネル分類モデル

  • 単純ベイズ モデル

"quadratic"
すべてのバイナリ学習器が SVM であるか、SVM 学習器の線形またはカーネル分類モデルである。"hinge"
すべてのバイナリ学習器が、AdaboostM1 または GentleBoost によって学習をさせたアンサンブルである。"exponential"
すべてのバイナリ学習器が、LogitBoost によって学習をさせたアンサンブルである。"binodeviance"
fitcecocFitPosterior=true を設定して、クラスの事後確率を予測するように指定している。"quadratic"
バイナリ学習器が異種混合で、さまざまな損失関数を使用している。"hamming"

既定値を確認するには、コマンド ラインでドット表記を使用して学習済みモデルの BinaryLoss プロパティを表示します。

例: BinaryLoss="binodeviance"

データ型: char | string | function_handle

バイナリ損失を集計する復号化方式。"lossweighted" または "lossbased" として指定します。詳細は、バイナリ損失を参照してください。

例: Decoding="lossbased"

データ型: char | string

損失関数。'classiferror''classifcost'、または関数ハンドルとして指定します。

  • 組み込み関数 'classiferror' を指定します。この場合、損失関数は分類誤差であり、誤分類された観測値の比率です。

  • 組み込み関数 'classifcost' を指定します。この場合、損失関数は観測誤分類コストです。既定のコスト行列 (正しい分類の場合の要素値は 0、誤った分類の場合の要素値は 1) を使用する場合、'classifcost''classiferror' の損失の値は同じです。

  • または、関数ハンドル表記を使用して独自の関数を指定します。

    n = size(X,1) が標本サイズ、K がクラス数であると仮定します。関数には署名 lossvalue = lossfun(C,S,W,Cost) がなければなりません。ここで、次のようになります。

    • 出力引数 lossvalue はスカラーです。

    • 関数名 (lossfun) を指定します。

    • CnK 列の logical 行列であり、対応する観測値が属するクラスを各行が示します。列の順序は Mdl.ClassNames のクラスの順序に対応します。

      C を作成するには、各行について観測値 p がクラス q に含まれている場合に C(p,q) = 1 を設定します。行 p の他のすべての要素を 0 に設定します。

    • S は、符号を反転したクラスの損失値が含まれている nK 列の数値行列です。各列は観測と対応しています。列の順序は Mdl.ClassNames のクラスの順序に対応します。入力 S は、resubPredict の出力引数 NegLoss に似ています。

    • W は、観測値の重みの n 行 1 列の数値ベクトルです。W を渡す場合、その要素は正規化され、合計が 1 になります。

    • Cost は、誤分類コストの、KK 列の数値行列です。たとえば、Cost = ones(K) – eye(K) は、正しい分類のコストとして 0 を、誤分類のコストとして 1 を指定します。

    'LossFun',@lossfun を使用して独自の関数を指定します。

データ型: char | string | function_handle

推定オプション。statset によって返される構造体配列として指定します。

並列計算を起動するには、Parallel Computing Toolbox™ ライセンスが必要です。

例: Options=statset(UseParallel=true)

データ型: struct

詳細レベル。0 または 1 として指定します。Verbose は、コマンド ウィンドウに表示される診断メッセージの量を制御します。

Verbose0 の場合、診断メッセージは表示されません。それ以外の場合は、診断メッセージが表示されます。

例: Verbose=1

データ型: single | double

詳細

すべて折りたたむ

参照

[1] Allwein, E., R. Schapire, and Y. Singer. “Reducing multiclass to binary: A unifying approach for margin classifiers.” Journal of Machine Learning Research. Vol. 1, 2000, pp. 113–141.

[2] Escalera, S., O. Pujol, and P. Radeva. “Separability of ternary codes for sparse designs of error-correcting output codes.” Pattern Recog. Lett. Vol. 30, Issue 3, 2009, pp. 285–297.

[3] Escalera, S., O. Pujol, and P. Radeva. “On the decoding process in ternary error-correcting output codes.” IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 32, Issue 7, 2010, pp. 120–134.

拡張機能

すべて展開する

バージョン履歴

R2014b で導入