このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。
分類学習器における分類器の性能評価
分類学習器で分類器に学習させた後で、精度のスコアに基づくモデルの比較、クラス予測のプロットによる結果の可視化、混同行列と ROC 曲線の使用による性能のチェックを行うことができます。
k 分割交差検証を使用した場合、k 個の検証分割内の観測値を使用して精度のスコアが計算され、平均の交差検証誤差が報告されます。これらの検証分割内の観測値に対する予測も行われ、これらの予測に対して混同行列と ROC 曲線が計算されます。
メモ
既定の設定のままでデータをアプリにインポートすると、自動的に交差検証が使用されます。詳細については、検証方式の選択を参照してください。
ホールドアウト検証を使用した場合、検証分割内の観測値を使用して精度のスコアが計算され、これらの観測値に対して予測が行われます。これらの予測に基づいて混同行列と ROC 曲線も計算されます。
再代入検証を使用した場合、スコアはすべての学習データに基づく再代入精度、予測は再代入予測です。
[モデル] ペインにおける性能のチェック
分類学習器でモデルを学習させると、モデルの全体的な精度がパーセント単位で [モデル] ペインに表示されるので、どれが最適か確認します。[精度 (検証)] が最高のスコアは、ボックスで強調表示されます。このスコアが検定精度になります。検定精度のスコアにより、学習データと比較した新しいデータに対するモデルの性能を推定できます。このスコアは、最適なモデルの選択に役立ちます。
交差検証の場合、スコアはすべての観測値についての精度であり、ホールドアウト (検証) 分割に含まれていた各観測値をカウントします。
ホールドアウト検証の場合、スコアはホールドアウトされた観測値についてのスコアです。
再代入検証の場合、スコアはすべての学習データ観測値に対する再代入精度です。
総合スコアが最高でも、目標に最適なモデルではないことがあります。全体的な精度がわずかに低いモデルが目標に最適な分類器になる可能性もあります。たとえば、特定のクラスにおける偽陽性が重要な場合があります。データ収集にコストがかかったり困難な予測子のいくつかを除外することが考えられます。
各クラスにおける分類器の性能を調べるには、混同行列を確認します。
モデル メトリクスの表示と比較
モデル メトリクスを [現在のモデルの概要] ペインに表示し、これらのメトリクスを使用してモデルの評価と比較を行うことができます。[学習結果] のメトリクスは検証セットに対して計算されます。[テスト結果] のメトリクス (表示される場合) は、インポートした検定セットに対して計算されます。詳細については、検定セットにおけるモデルの性能の評価を参照してください。
[現在のモデルの概要] ペインの情報をコピーするには、ペイン内を右クリックして [テキストのコピー] を選択します。
モデル メトリクス
メトリクス | 説明 | ヒント |
---|---|---|
精度 | 正しく分類された観測値の比率 | より大きい精度値を探します。 |
総コスト | 総誤分類コスト | より小さい総コスト値を探します。精度値が大きいままであることを確認します。 |
さまざまなモデル メトリクスに基づいてモデルを並べ替えることができます。メトリクスを選択してモデルを並べ替えるには、[モデル] ペインの上部にある [並べ替え] リストを使用します。
[モデル] ペインにリストされている不要なモデルの削除もできます。削除するモデルを選択してペインの右上にある [選択したモデルの削除] ボタンをクリックするか、モデルを右クリックして [モデルを削除] を選択します。[モデル] ペインに最後に残ったモデルは削除できません。
分類器の結果のプロット
散布図を使用して分類器の結果を確認します。モデルの散布図を表示するには、[モデル] ペインでモデルを選択します。[分類学習器] タブの [プロット] セクションで矢印をクリックしてギャラリーを開き、[検証結果] グループの [散布] をクリックします。分類器に学習をさせた後では、散布図の表示がデータからモデル予測に切り替わります。ホールドアウト検証または交差検証を使用している場合、これらの予測はホールドアウトされた (検証) 観測値に対する予測です。つまり、各予測は、対応する観測値を使用せずに学習をさせたモデルを使用して得られます。
結果を調べるには、右にあるコントロールを使用します。次が可能です。
モデル予測をプロットするかデータのみをプロットするかを選択します。
[モデル予測] のチェック ボックスを使用して、正しい結果または正しくない結果を表示または非表示にします。
[予測子] の [X] と [Y] のリストを使用して、プロットする特徴量を選択します。
[表示] のチェック ボックスを使用して特定のクラスを表示または非表示にすることにより、結果をクラス別に可視化します。
プロットしたクラスのスタックの順番を変更するには、[クラス] でクラスを選択してから [最前面へ移動] をクリックします。
ズームインやズームアウト、またはプロットの移動を行います。ズームまたは移動は、散布図上にマウスを合わせ、プロットの右上隅に表示されるツール バーの対応するボタンをクリックすることで有効になります。
散布図における特徴量の調査 も参照してください。
アプリで作成した散布図を Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。
混同行列におけるクラスごとの性能のチェック
現在選択している分類器の各クラスにおける性能を調べるには、混同行列プロットを使用します。分類モデルに学習させた後、そのモデルの混同行列がアプリで自動的に開きます。"すべて" のモデルに学習させた場合は、最初のモデルの混同行列のみが開きます。別のモデルの混同行列を表示するには、[モデル] ペインでモデルを選択します。[分類学習器] タブの [プロット] セクションで矢印をクリックしてギャラリーを開き、[検証結果] グループの [混同行列 (検証)] をクリックします。混同行列は、分類器が十分には機能しなかった領域を特定するために役立ちます。
プロットを開くと、真のクラスが行に、予測したクラスが列に表示されます。ホールドアウト検証または交差検証を使用している場合、ホールドアウトされた (検証) 観測値に対する予測が混同行列の計算に使用されます。対角線上のセルには、真のクラスと予測したクラスが一致したことが示されます。これらの対角線上のセルが青であれば、分類器によりこの真のクラスの観測値が正しく分類されたことになります。
既定の表示では、各セルに観測値の数が示されます。
クラスごとに分類器がどのように機能したかを調べるには、[プロット] の [真陽性率 (TPR), 偽陰性率 (FNR)] オプションを選択します。TPR は、真のクラスごとの正しく分類された観測値の割合です。FNR は、真のクラスごとの誤って分類された観測値の割合です。プロットで右の最後の 2 列に真のクラスごとの要約が示されます。
ヒント
分類器が十分に機能しなかった領域を探すには、パーセンテージが高くオレンジで表示されている対角線外のセルを確認します。パーセンテージが高くなるほど、セルの色が濃くなります。これらのオレンジのセルでは、真のクラスと予測したクラスが一致していません。データ点は誤分類されています。
この例では carsmall
データセットを使用しており、先頭から 2 行目には真のクラスが Germany の自動車がすべて表示されています。各列には、予測したクラスが表示されています。Germany の自動車の 22.2% が正しく分類されているので、このクラスで正しく分類された点の真陽性率は [22.2%] であることが [TPR] 列の青のセルに示されています。
他の Germany の自動車の行は誤分類されており、55.6% の自動車が Japan、22.2% の自動車が USA として誤って分類されています。このクラスで誤って分類された点の偽陰性率は [77.8%] であることが、[FNR] 列のオレンジのセルに示されています。
比率ではなく観測値の数 (この例では自動車の台数) を表示するには、[プロット] の [観測値の数] を選択します。
偽陽性が重要な分類問題の場合、(真のクラスではなく) 予測クラスごとに結果をプロットして誤検出率を調査します。予測クラスごとの結果を表示するには、[プロット] の [陽性の予測値 (PPV), 偽発見率 (FDR)] オプションを選択します。PPV は、予測されたクラスごとの正しく分類された観測値の割合です。FDR は、予測されたクラスごとの誤って分類された観測値の割合です。このオプションを選択すると、混同行列の表の下に要約行が含まれるようになります。各クラスで正しく予測された点について陽性の予測値が青で表示され、各クラスで誤って予測された点について誤検出率がオレンジで表示されます。
関心の対象となるクラスに含まれる誤分類点が多すぎると判断した場合は、分類器の設定または特徴選択を変更して、より適切なモデルを探してください。
アプリで作成した混同行列プロットを Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。
ROC 曲線のチェック
モデルに学習させた後で ROC 曲線を表示するには、[分類学習器] タブの [プロット] セクションで矢印をクリックしてギャラリーを開き、[検証結果] グループの [混同行列 (検証)] をクリックします。真陽性率と偽陽性率を示す受信者動作特性 (ROC) 曲線が表示されます。ROC 曲線には、現在選択している学習済みの分類器について真陽性率と偽陽性率の関係が示されます。さまざまなクラスを選択してプロットできます。
プロットのマーカーは、現在選択されている分類器の性能を示します。マーカーは、現在選択されている分類器の偽陽性率 (FPR) と真陽性率 (TPR) の値を示します。たとえば、0.2 という偽陽性率 (FPR) は、現在の分類器が観測値の 20% を誤って陽性クラスに割り当てていることを示します。0.9 という真陽性率は、現在の分類器が観測値の 90% を正しく陽性クラスに割り当てていることを示します。
誤分類された点がない良好な結果は、プロットの左上に向かって直角になります。結果が無作為と変わらない程度で望ましくない場合は 45°の線になります。[曲線の下の領域] の数値は、分類器の全体的な品質の尺度です。[曲線の下の領域] の値が大きいほど、分類器の性能が高いことを示します。クラスと学習済みのモデルを比較するには、ROC 曲線で性能の違いを確認します。
詳細は、perfcurve
を参照してください。
アプリで作成した ROC 曲線プロットを Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。
レイアウトの変更によるモデル プロットの比較
[分類学習器] タブの [プロット] セクションのプロット オプションを使用して、分類学習器で学習させたモデルの結果を可視化します。プロットのレイアウトを再編成して複数のモデルの結果を比較できます。[レイアウト] ボタンのオプションを使用するか、プロットをドラッグ アンド ドロップするか、モデル プロットのタブの右にある [ドキュメント アクション] 矢印に表示されるオプションを選択します。
たとえば、分類学習器で 2 つのモデルに学習させた後、次のいずれかの手順を使用して、各モデルのプロットを表示し、プロットのレイアウトを変更してプロットを比較します。
[レイアウト] をクリックし、[分類学習器] タブの [プロット] セクションで [モデルの比較] を選択します。
2 つ目のモデルのタブ名をクリックし、2 つ目のモデルのタブを右にドラッグ アンド ドロップします。
モデル プロットのタブの右端にある [ドキュメント アクション] 矢印をクリックします。
[すべて並べて表示]
オプションを選択し、1 行 2 列のレイアウトを指定します。
プロットの右上にある [プロット オプションを非表示] ボタン をクリックするとプロットのスペースを大きくできることに注意してください。
検定セットにおけるモデルの性能の評価
分類学習器でモデルに学習させた後、アプリで検定セットにおけるモデルの性能を評価できます。このプロセスにより、新しいデータにおけるモデルの性能が検証精度で適切に推定されるかどうかを確認できます。
検定データセットを分類学習器にインポートします。
検定データセットが MATLAB® ワークスペース内にある場合は、[分類学習器] タブの [検定] セクションで [検定データ] をクリックし、[ワークスペースから] を選択します。
検定データセットがファイル内にある場合は、[検定] セクションで [検定データ] をクリックし、[ファイルから] を選択します。スプレッドシート、テキスト ファイル、コンマ区切り値 (
.csv
) ファイルなどのファイル タイプをリストから選択するか、[すべてのファイル] を選択して.dat
など他のファイル タイプを参照します。
[検定データのインポート] ダイアログ ボックスで、[検定データセット変数] のリストから検定データセットを選択します。検定セットは、学習と検証のためにインポートした予測子と同じ変数をもたなければなりません。検定応答変数内の一意の値は、応答変数全体におけるクラスのサブセットでなければなりません。
検定セット メトリクスを計算します。
単一のモデルの検定メトリクスを計算するには、[モデル] ペインで学習済みモデルを選択します。[分類学習器] タブの [検定] セクションで [すべて検定] をクリックし、[選択項目を検定] を選択します。
すべての学習済みモデルの検定メトリクスを計算するには、[検定] セクションで [すべて検定] をクリックし、[すべて検定] を選択します。
学習データと検証データを含むデータセット全体で学習させた各モデルの検定セットの性能が計算されます。
検証精度と検定精度を比較します。
[現在のモデルの概要] ペインの [学習結果] セクションと [テスト結果] セクションに、それぞれ検証メトリクスと検定メトリクスが表示されます。検証精度によって検定精度が適切に推定されるかどうかを確認できます。
プロットを使用した検定結果の可視化もできます。
混同行列を表示します。[分類学習器] タブの [プロット] セクションで矢印をクリックしてギャラリーを開き、[テスト結果] グループの [混同行列 (検定)] をクリックします。
ROC 曲線を表示します。[プロット] セクションで矢印をクリックしてギャラリーを開き、[テスト結果] グループの [ROC 曲線 (検定)] をクリックします。
例については、分類学習器アプリにおける検定セットを使用した分類器の性能チェックを参照してください。ハイパーパラメーターの最適化ワークフローで検定セット メトリクスを使用する例については、分類学習器アプリでハイパーパラメーターの最適化を使用した分類器の学習を参照してください。