Main Content

モデルの作成と評価

特徴選択、特徴量エンジニアリング、モデル選択、ハイパーパラメーターの最適化、交差検証、予測性能の評価、および分類精度の比較検定

高品質の予測分類モデルを構築するには、正しい特徴量 (予測子) の選択とハイパーパラメーター (推定されないモデル パラメーター) の調整を行うことが重要です。

特徴選択とハイパーパラメーター調整により複数のモデルが生成されます。k 分割誤分類率、受信者動作特性 (ROC) 曲線または混同行列をモデル間で比較できます。または、統計的検定を実施して、ある分類モデルの性能が他の分類モデルに対して有意に優れているかどうかを調べます。

分類モデルに学習させる前に新しい特徴量を設計するには、gencfeatures を使用します。

分類モデルの構築と評価を対話的に行うには、分類学習器アプリを使用します。

調整されたハイパーパラメーターでモデルを自動的に選択するには、fitcauto を使用します。この関数は、分類モデルのタイプの選択をさまざまなハイパーパラメーターの値で試し、新しいデータで適切に実行されることが期待される最終モデルを返します。データに最適な分類器のタイプがわからない場合は、fitcauto を使用します。

特定のモデルのハイパーパラメーターを調整するには、ハイパーパラメーターの値を選択し、この値を使用してモデルを交差検証します。たとえば、SVM モデルを調整するには、一連のボックス制約およびカーネル スケールを選択し、値の各ペアについてモデルを交差検証します。Statistics and Machine Learning Toolbox™ の一部の分類関数では、ベイズ最適化、グリッド探索またはランダム探索による自動的なハイパーパラメーター調整が提供されます。ベイズ最適化を実装するための main 関数である bayesopt は、他の多くの用途にも応用が利きます。ベイズ最適化のワークフローを参照してください。

分類モデルを解釈するために、limeshapley および plotPartialDependence を使用できます。

アプリ

分類学習器教師あり機械学習を使用して、データを分類するようにモデルを学習させる

関数

すべて展開する

fscchi2カイ二乗検定を使用した分類に向けた一変量の特徴量ランク付け (R2020a 以降)
fscmrmrMinimum Redundancy Maximum Relevance (MRMR) アルゴリズムを使用した分類用の特徴量のランク付け (R2019b 以降)
fscnca分類に近傍成分分析を使用する特徴選択
oobPermutedPredictorImportanceOut-of-bag predictor importance estimates for random forest of classification trees by permutation
permutationImportancePredictor importance by permutation (R2024a 以降)
predictorImportanceEstimates of predictor importance for classification tree
predictorImportanceEstimates of predictor importance for classification ensemble of decision trees
relieffReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
selectFeaturesSelect important features for NCA classification or regression (R2023b 以降)
sequentialfsカスタム基準を使用した逐次特徴選択
gencfeatures分類用の自動特徴量エンジニアリングの実行 (R2021a 以降)
describe生成された特徴量の説明 (R2021a 以降)
transform生成された特徴量を使用した新しいデータの変換 (R2021a 以降)
fitcauto最適化されたハイパーパラメーターをもつ分類モデルの自動選択 (R2020a 以降)
bayesoptベイズ最適化を使用した最適な機械学習のハイパーパラメーターの選択
hyperparameters近似関数を最適化するための変数の説明
optimizableVariablebayesopt またはその他のオプティマイザーの変数の説明
crossval交差検証を使用した損失の推定
cvpartition交差検証用のデータの分割
repartition交差検証のための再分割データ
test交差検証用のテスト インデックス
training交差検証用の学習インデックス

Local Interpretable Model-agnostic Explanations (LIME)

limeLocal Interpretable Model-agnostic Explanations (LIME) (R2020b 以降)
fitLocal Interpretable Model-agnostic Explanations (LIME) の単純モデルの当てはめ (R2020b 以降)
plotLocal Interpretable Model-agnostic Explanations (LIME) の結果のプロット (R2020b 以降)

シャープレイ値

shapleyシャープレイ値 (R2021a 以降)
fitクエリ点のシャープレイ値の計算 (R2021a 以降)
plotシャープレイ値のプロット (R2021a 以降)
boxchartVisualize Shapley values using box charts (box plots) (R2024a 以降)
swarmchartVisualize Shapley values using swarm scatter charts (R2024a 以降)

部分依存

partialDependence部分依存の計算 (R2020b 以降)
plotPartialDependence部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成

混同行列

confusionchart分類問題用の混同行列チャートの作成
confusionmat分類問題用の混同行列の計算

受信者動作特性 (ROC) 曲線

rocmetricsバイナリ分類器およびマルチクラス分類器の受信者動作特性 (ROC) 曲線とパフォーマンス メトリクス (R2022a 以降)
addMetrics分類の追加のパフォーマンス メトリクスの計算 (R2022a 以降)
averageマルチクラス問題における平均受信者動作特性 (ROC) 曲線のパフォーマンス メトリクスの計算 (R2022a 以降)
plot受信者動作特性 (ROC) 曲線やその他の性能曲線のプロット (R2022a 以降)
perfcurve分類器の出力用の受信者動作特性 (ROC) 曲線または他の性能曲線
testcholdout2 つの分類モデルの予測精度を比較
testckfold交差検証の反復により 2 つの分類モデルの精度を比較

オブジェクト

すべて展開する

FeatureSelectionNCAClassificationFeature selection for classification using neighborhood component analysis (NCA)
FeatureTransformer生成された特徴変換 (R2021a 以降)
BayesianOptimizationベイズ最適化の結果

プロパティ

ConfusionMatrixChart のプロパティ混同行列チャートの外観と動作
ROCCurve のプロパティ受信者動作特性 (ROC) 曲線の外観と動作 (R2022a 以降)

トピック

分類学習器アプリ

特徴選択

特徴量エンジニアリング

  • 分類用の自動特徴量エンジニアリング
    分類モデルに学習させる前に gencfeatures を使用して新しい特徴を設計する。新しいデータの予測の前に同じ特徴変換を新しいデータ セットに適用する。

自動モデル選択

ハイパーパラメーターの最適化

モデルの解釈

  • 機械学習モデルの解釈
    lime オブジェクトおよび shapley オブジェクトと関数 plotPartialDependence を使用してモデル予測を説明する。
  • 機械学習モデルのシャープレイ値
    介入型アルゴリズムまたは条件付きアルゴリズムを使用して機械学習モデルのシャープレイ値を計算する。
  • Shapley Output Functions
    Stop Shapley computations, create plots, save information to your workspace, or perform calculations while using shapley.

交差検証

分類性能の評価