最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

分類学習器における分類器の性能評価

分類学習器で分類器に学習をさせた後で、精度のスコアに基づくモデルの比較、クラス予測のプロットによる結果の可視化、混同行列と ROC 曲線の使用による性能のチェックを行うことができます。

  • k 分割交差検証を使用した場合、k 個の検証分割内の観測値を使用して精度のスコアが計算され、平均の交差検証誤差が報告されます。これらの検証分割内の観測値に対する予測も行われ、これらの予測に対して混同行列と ROC 曲線が計算されます。

    メモ

    既定の設定のままでデータをアプリにインポートすると、自動的に交差検証が使用されます。詳細については、検定方式の選択を参照してください。

  • ホールドアウト検証を使用した場合、検証分割内の観測値を使用して精度のスコアが計算され、これらの観測値に対して予測が行われます。これらの予測に基づいて混同行列と ROC 曲線も計算されます。

  • 検証方式を使用しないよう選択した場合、スコアはすべての学習データに基づく再代入精度、予測は再代入予測です。

[履歴] の一覧における性能のチェック

分類学習器でモデルを学習させると、モデルの全体的な精度がパーセント単位で [履歴] の一覧に表示されるので、どれが最適か確認します。[精度] が最高のスコアは、ボックスで強調表示されます。このスコアが検定精度になります ([検定なし] を選択した場合を除く)。検定精度のスコアにより、学習データと比較した新しいデータに対するモデルの性能を推定できます。このスコアは、最適なモデルの選択に役立ちます。

  • 交差検証の場合、スコアはすべての観測値についての精度であり、ホールドアウトされた分割に含まれていた各観測値をカウントします。

  • ホールドアウト検証の場合、スコアはホールドアウトされた観測値についてのスコアです。

  • [検定なし] を選択した場合、スコアはすべての学習データ観測値に対する再代入精度です。

総合スコアが最高でも、目標に最適なモデルではないことがあります。全体的な精度がわずかに低いモデルが目標に最適な分類器になる可能性もあります。たとえば、特定のクラスにおける偽陽性が重要な場合があります。データ収集にコストがかかったり困難な予測子のいくつかを除外することが考えられます。

各クラスにおける分類器の性能を調べるには、混同行列を確認します。

分類器の結果のプロット

分類器の結果が散布図に表示されます。分類器に学習をさせた後では、散布図の表示がデータからモデル予測に切り替わります。ホールドアウト検定または交差検証を使用している場合、これらの予測はホールドアウトされた観測値に対する予測です。つまり、各予測は、対応する観測値を使用せずに学習をさせたモデルを使用して得られます。結果を調べるには、右にあるコントロールを使用します。次が可能です。

  • モデル予測をプロットするかデータのみをプロットするかを選択します。

  • [モデル予測] のチェック ボックスを使用して、正しい結果または正しくない結果を表示または非表示にします。

  • [予測子][X][Y] のリストを使用して、プロットする特徴量を選択します。

  • [表示] のチェック ボックスを使用して特定のクラスを表示または非表示にすることにより、結果をクラス別に可視化します。

  • プロットしたクラスのスタックの順番を変更するには、[クラス] でクラスを選択してから [最前面へ移動] をクリックします。

  • ズームインやズームアウト、またはプロットの移動を行います。ズームと移動は、散布図上にマウスを移動させ、プロットの右上隅付近に表示されるボタンのいずれかをクリックすることで有効になります。

散布図における特徴量の調査 も参照してください。

アプリで作成した散布図を Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。

混同行列におけるクラスごとの性能のチェック

現在選択している分類器の各クラスにおける性能を調べるには、混同行列プロットを使用します。モデルを学習させた後で混同行列を表示するには、[分類学習器] タブの [プロット] セクションで [混同行列] をクリックします。混同行列は、分類器が十分には機能しなかった領域を特定するために役立ちます。

プロットを開くと、真のクラスが行に、予測したクラスが列に表示されます。ホールドアウト検定または交差検証を使用している場合、ホールドアウトされた観測値に対する予測が混同行列の計算に使用されます。対角線上のセルには、真のクラスと予測したクラスが一致したことが示されます。これらのセルが緑になっている場合、分類器は適切に機能し、該当する真のクラスの観測値が正しく分類されたことになります。

既定の表示では、各セルに観測値の数が示されます。

クラスごとに分類器がどのように機能したかを調べるには、[プロット][真陽性率][偽陰性率] オプションを選択します。プロットで右の最後の 2 列に真のクラスごとの要約が示されます。

ヒント

分類器が十分には機能しなかった領域を探すには、パーセンテージが高く赤で表示されている対角線外のセルを確認します。パーセンテージが高くなるほど、セルの色が明るくなります。このような赤いセルでは、真のクラスと予測したクラスが一致していません。データ点は誤分類されています。

この例では carsmall データセットを使用しており、先頭の行には真のクラスが France の自動車がすべて表示されています。各列には、予測したクラスが表示されています。先頭の行では 25% の France の自動車が正しく分類されているので、このクラスで正しく分類された点の真陽性率は [25%] であることが [真陽性率] 列の緑のセルに示されています。

他の France の自動車の行は誤分類されており、50% の自動車が Japan、25% の自動車が Sweden として誤って分類されています。このクラスで誤って分類された点の偽陰性率は [75%] であることが [偽陰性率] 列の赤いセルに示されています。

比率ではなく観測値の数 (この例では自動車の台数) を表示するには、[プロット][観測値の数] を選択します。

偽陽性が重要な分類問題の場合、(真のクラスではなく) 予測クラスごとに結果をプロットして誤検出率を調査します。予測クラスごとの結果を表示するには、[プロット][陽性の予測値] [偽発見率] を選択します。すると、混同行列で表の下に要約行が表示されます。各クラスで正しく予測された点について陽性の予測値が緑で表示され、その下に各クラスで誤って予測された点について誤検出率が赤で表示されます。

関心の対象となるクラスに含まれる誤分類点が多すぎると判断した場合は、分類器の設定または特徴選択を変更して、より適切なモデルを探してください。

アプリで作成した混同行列プロットを Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。

ROC 曲線のチェック

モデルを学習させた後で ROC 曲線を表示するには、[分類学習器] タブの[プロット] セクションで [ROC 曲線] をクリックします。真陽性率と偽陽性率を示す受信者動作特性 (ROC) 曲線が表示されます。ROC 曲線には、現在選択している学習済みの分類器について真陽性率と偽陽性率の関係が示されます。さまざまなクラスを選択してプロットできます。

プロットのマーカーは、現在選択されている分類器の性能を示します。マーカーは、現在選択されている分類器の偽陽性率 (FPR) と真陽性率 (TPR) の値を示します。たとえば、0.2 という偽陽性率 (FPR) は、現在の分類器が観測値の 20% を誤って陽性クラスに割り当てていることを示します。0.9 という真陽性率は、現在の分類器が観測値の 90% を正しく陽性クラスに割り当てていることを示します。

誤分類された点がない良好な結果は、プロットの左上に向かって直角になります。結果が無作為と変わらない程度で望ましくない場合は 45°の線になります。[曲線の下の領域] の数値は、分類器の全体的な品質の尺度です。[曲線の下の領域] の値が大きいほど、分類器の性能が高いことを示します。クラスと学習済みのモデルを比較するには、ROC 曲線で性能の違いを確認します。

詳細は、perfcurve を参照してください。

アプリで作成した ROC 曲線プロットを Figure にエクスポートする方法については、分類学習器アプリのプロットのエクスポートを参照してください。

関連するトピック