Main Content

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

分類学習器アプリの使用による特徴選択と特徴変換

散布図における特徴量の調査

分類学習器では、異なる予測子のペアを散布図にプロットすることにより、クラスを十分に分類する予測子を特定します。このプロットは、どの特徴量を追加または除外するかを調べるために役立ちます。学習データと誤分類点を散布図で可視化できます。

分類器に学習をさせる前は、データが散布図に表示されます。分類器に学習をさせた後では、モデルの予測結果が散布図に表示されます。プロットをデータのみに切り替えるには、[プロット] のコントロールで [データ] を選択します。

  • [予測子][X][Y] のリストを使用して、プロットする特徴量を選択します。

  • クラスを十分に分離する予測子を探します。たとえば、fisheriris のデータをプロットすると、萼片の長さと萼片の幅によりクラスの 1 つ (setosa) が十分に分離されることがわかります。他の 2 つのクラスを分離できるかどうかを調べるには、別の予測子をプロットする必要があります。

    Scatter plot of the Fisher iris data

  • 特定のクラスを表示または非表示にするには、[表示] のチェック ボックスを使用します。

  • プロットしたクラスのスタックの順番を変更するには、[クラス] でクラスを選択してから [最前面へ移動] をクリックします。

  • 詳細を調べるには、ズームインやズームアウト、およびプロットの移動を行います。ズームまたは移動は、散布図上にマウスを移動させ、プロットの右上隅に表示されるツール バーの対応するボタンをクリックすることで有効になります。

  • クラスの分離に役立たない予測子を識別した場合は、[特徴選択] を使用してその予測子を削除し、最も有用な予測子のみが含まれている分類器に学習をさせます。

分類器に学習をさせた後では、モデルの予測結果が散布図に表示されます。正しい結果または正しくない結果を表示または非表示にし、結果をクラスごとに可視化することができます。分類器の結果のプロットを参照してください。

アプリで作成した散布図を Figure にエクスポートできます。分類学習器アプリのプロットのエクスポートを参照してください。

含める特徴量の選択

分類学習器では、モデルに含めるさまざまな特徴量 (予測子) を指定できます。予測力が低い特徴量を削除するとモデルが向上するか確認してください。データの収集が高価または困難な場合、一部の予測子がなくても十分に機能するモデルが好ましい可能性があります。

  1. [分類学習器] タブの [特徴量] セクションで [特徴選択] をクリックします。

  2. [特徴選択] ティアアウェイ ウィンドウで、除外する予測子についてチェック ボックスの選択を解除します。

    Feature Selection menu with SepalLength and SepalWidth selected, and PetalLength and PetalWidth cleared

    ヒント

    [特徴選択] ティアアウェイ ウィンドウは、閉じるか移動できます。ティアアウェイ ウィンドウで行った選択は保持されます。

  3. [学習] をクリックして、新しい予測子のオプションで新しいモデルを学習させます。

  4. [履歴] の一覧で新しいモデルを確認します。[現在のモデル] ペインには、除外した予測子の数が表示されます。

  5. 学習済みのモデルにどの予測子が含まれているかを確認するため、[履歴] の一覧でモデルをクリックして [特徴選択] ダイアログ ボックスのチェック ボックスを確認します。

  6. 別の特徴量をモデルに含めてモデルが向上するか試すことができます。

特徴選択を使用する例については、分類学習器アプリを使用した決定木の学習を参照してください。

分類学習器における PCA による特徴量の変換

主成分分析 (PCA) を使用すると、予測子空間の次元を減らすことができます。次元を減らすと、過適合の防止に役立つ分類モデルを分類学習器で作成できます。PCA は、冗長な次元を削除するために予測子を線形的に変換して、主成分と呼ばれる新しい一連の変数を生成します。

  1. [分類学習器] タブの [特徴量] セクションで、[PCA] を選択します。

  2. [高度な PCA オプション] ティアアウェイ ウィンドウで [PCA を有効にする] を選択します。

    [PCA] ティアアウェイ ウィンドウは、閉じるか移動できます。ティアアウェイ ウィンドウで行った選択は保持されます。

  3. 次に [学習] をクリックすると、分類器を学習させる前に、選択した特徴量が関数 pca によって変換されます。

  4. 既定の設定では、PCA は分散の 95% を説明する成分のみを保持します。説明する分散の比率は、[PCA] ティアアウェイ ウィンドウの [説明分散] ボックスで変更できます。値を大きくすると過適合のリスクが生じますが、値を小さくすると有用な次元が削除されるリスクが生じます。

  5. PCA の成分数を手動で制限するには、[成分の削減基準] リストで [成分数の指定] を選択します。[数値成分の数] ボックスの数値を編集します。成分数を数値予測子の数より多くすることはできません。カテゴリカル予測子には PCA は適用されません。

学習済みモデルの PCA のオプションを [現在のモデル] ペインの情報で確認します。説明分散の比率をチェックして、成分数を変更するかどうかを決定します。以下に例を示します。

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%

分類学習器が PCA をデータに適用する方法についてさらに学ぶには、学習済みの分類器についてコードを生成します。PCA についての詳細は、関数 pca を参照してください。

平行座標プロットにおける特徴量の調査

追加または除外する特徴量を調べるには、平行座標プロットを使用します。高次元データを単一のプロットで可視化して 2 次元パターンを調べることができます。このプロットは、特徴量間の関係を理解し、クラスの分離に有用な予測子を識別するのに役立ちます。平行座標プロットでは、学習データと誤分類点を可視化できます。分類器の結果をプロットすると、誤分類点が破線になります。

  1. [分類学習器] タブの [プロット] セクションで、[平行座標プロット] をクリックします。

  2. プロットの X 目盛りラベルをドラッグして予測子の順序を変更します。順序を変更すると、クラスを十分に分離する予測子を識別するために役立てることができます。

  3. プロットする予測子を指定するには、[予測子] チェック ボックスを使用します。一度にプロットする予測子の数を少なくすることをお勧めします。データに多数の予測子が含まれている場合、既定の設定では最初の 10 個の予測子がプロットに表示されます。すべての予測子の選択を解除すると、最初の 10 個の予測子が選択し直されます。

  4. これらの予測子のスケールが大きく異なる場合は、見やすくなるようにデータをスケーリングします。[スケーリング] リストのさまざまなオプションを試してください。

    • [範囲] は、各予測子の最小値から最大値までを座標ルーラーに沿って個別にプロットします。

    • [標準化] は、各予測子の平均がゼロになるようにプロットし、標準偏差で予測子をスケーリングします。

  5. クラスの分離に役立たない予測子を識別した場合は、[特徴選択] を使用してその予測子を削除し、最も有用な予測子のみが含まれている分類器を学習させます。

fisheriris のデータのプロットは、花弁の長さおよび花弁の幅がクラスの分離に最適な特徴であることを示します。

Parallel coordinates plot displaying classifier results for the Fisher iris data

アプリで作成した平行座標プロットを Figure にエクスポートできます。分類学習器アプリのプロットのエクスポートを参照してください。

関連するトピック