モデルの作成と評価

合成データの生成、特徴選択、特徴量エンジニアリング、モデル選択、ハイパーパラメーターの最適化、交差検証、予測性能の評価、および分類精度の比較検定

高品質の予測分類モデルを構築するには、正しい特徴量 (予測子) の選択とハイパーパラメーター (推定されないモデルパラメーター) の調整を行うことが重要です。特徴選択とハイパーパラメーター調整により複数のモデルが生成されます。k 分割誤分類率、受信者動作特性 (ROC) 曲線または混同行列をモデル間で比較できます。または、統計的検定を実施して、ある分類モデルの性能が他の分類モデルに対して有意に優れているかどうかを調べます。

分類モデルの構築と評価を行うには次のアクションを実行します。

synthesizeTabularData、binningTabularSynthesizer、または smoteTabularSynthesizer を使用して、分類モデルに学習させる前に既存のデータセットから合成データを生成します。
gencfeatures を使用して、分類モデルに学習させる前に新しい特徴量を設計します。
分類学習器アプリを使用して、分類モデルの構築と評価を対話的に行います。
fitcauto を使用して、調整されたハイパーパラメーターでモデルを自動的に選択します。この関数は、分類モデルのタイプの選択をさまざまなハイパーパラメーターの値で試し、新しいデータで適切に実行されることが期待される最終モデルを返します。データに最適な分類器のタイプがわからない場合は、fitcauto を使用します。
ハイパーパラメーターの値を選択し、この値を使用してモデルを交差検証することで、特定のモデルのハイパーパラメーターを調整します。たとえば、SVM モデルを調整するには、一連のボックス制約およびカーネルスケールを選択し、値の各ペアについてモデルを交差検証します。Statistics and Machine Learning Toolbox™ の一部の分類関数では、ベイズ最適化、グリッド探索またはランダム探索による自動的なハイパーパラメーター調整が提供されます。ベイズ最適化を実装するための main 関数である bayesopt は、他の多くの用途にも応用が利きます。ベイズ最適化のワークフローを参照してください。
lime、shapley、および plotPartialDependence を使用して、分類モデルを解釈します。
confusionchart、rocmetrics、または sliceMetrics を使用して、分類モデルの性能を評価します。

アプリ

分類学習器

教師あり機械学習を使用して、データを分類するようにモデルを学習させる

関数

すべて展開する

データの合成

`synthesizeTabularData`	Synthesize tabular data (R2024b 以降)
`binningTabularSynthesizer`	Binning-based synthesizer for tabular data synthesis (R2024b 以降)
`smoteTabularSynthesizer`	SMOTE-based synthesizer for tabular data synthesis (R2026a 以降)
`synthesizeTabularData`	Synthesize tabular data using binning-based or SMOTE-based synthesizer (R2024b 以降)
`mmdtest`	Two-sample multivariate hypothesis test using maximum mean discrepancy (MMD) (R2024b 以降)
`knntest`	Two-sample multivariate hypothesis test using k-nearest neighbors (KNN) (R2025a 以降)

特徴選択

`fscchi2`	カイ二乗検定を使用した分類に向けた一変量の特徴量ランク付け
`fscmrmr`	Minimum Redundancy Maximum Relevance (MRMR) アルゴリズムを使用した分類用の特徴量のランク付け
`fscnca`	分類に近傍成分分析を使用する特徴選択
`oobPermutedPredictorImportance`	分類木のランダムフォレストについての並べ替えによる out-of-bag 予測子の重要度の推定
`permutationImportance`	Predictor importance by permutation (R2024a 以降)
`predictorImportance`	分類木の予測子の重要度の推定
`predictorImportance`	決定木の分類アンサンブルに関する予測子の重要度の推定
`relieff`	ReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
`selectFeatures`	Select important features for NCA classification or regression (R2023b 以降)
`sequentialfs`	カスタム基準を使用した逐次特徴選択

特徴量エンジニアリング

`gencfeatures`	分類用の自動特徴量エンジニアリングの実行
`describe`	生成された特徴量の説明
`transform`	生成された特徴量を使用した新しいデータの変換

自動モデル選択

fitcauto 最適化されたハイパーパラメーターをもつ分類モデルの自動選択

ハイパーパラメーターの最適化

`bayesopt`	ベイズ最適化を使用した最適な機械学習のハイパーパラメーターの選択
`hyperparameters`	近似関数を最適化するための変数の説明
`optimizableVariable`	`bayesopt` またはその他のオプティマイザーの変数の説明
`learnersize`	Compact size of trained machine learning model object (R2024b 以降)
`plot`	Plot aggregated hyperparameter optimization results (R2024b 以降)
`resume`	Resume hyperparameter optimization problems (R2024b 以降)
`summary`	Summary table for `AggregateBayesianOptimization` object (R2024b 以降)

交差検証

`crossval`	交差検証を使用した損失の推定
`cvpartition`	交差検証用のデータの分割
`repartition`	交差検証のための再分割データ
`summary`	Summarize cross-validation partition with stratification or grouping variable (R2025a 以降)
`test`	交差検証用のテストインデックス
`training`	交差検証用の学習インデックス

モデルの解釈

Local Interpretable Model-agnostic Explanations (LIME)

`lime`	Local Interpretable Model-agnostic Explanations (LIME)
`fit`	Local Interpretable Model-agnostic Explanations (LIME) の単純モデルの当てはめ
`plot`	Local Interpretable Model-agnostic Explanations (LIME) の結果のプロット

シャープレイ値

`shapley`	シャープレイ値
`fit`	クエリ点のシャープレイ値の計算
`plot`	棒グラフを使用したシャープレイ値のプロット
`boxchart`	Visualize Shapley values using box charts (box plots) (R2024a 以降)
`plotDependence`	Plot dependence of Shapley values on predictor values (R2024b 以降)
`swarmchart`	Visualize Shapley values using swarm scatter charts (R2024a 以降)

部分依存

`partialDependence`	部分依存の計算
`plotPartialDependence`	部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成

反事実

counterfactuals Generate counterfactual examples for observation (R2026a 以降)

分類性能の評価

混同行列

`confusionchart`	分類問題用の混同行列チャートの作成
`confusionmat`	分類問題の混同行列の計算

受信者動作特性 (ROC) 曲線

`rocmetrics`	バイナリ分類器およびマルチクラス分類器の受信者動作特性 (ROC) 曲線とパフォーマンスメトリクス (R2022a 以降)
`addMetrics`	分類の追加のパフォーマンスメトリクスの計算 (R2022a 以降)
`auc`	ROC 曲線または適合率-再現率曲線の下の領域 (R2024b 以降)
`average`	マルチクラス問題における平均受信者動作特性 (ROC) 曲線のパフォーマンスメトリクスの計算 (R2022a 以降)
`modelOperatingPoint`	Operating point of `rocmetrics` object (R2024b 以降)
`plot`	受信者動作特性 (ROC) 曲線やその他の性能曲線のプロット (R2022a 以降)
`perfcurve`	分類器の出力用の受信者動作特性 (ROC) 曲線または他の性能曲線

データスライスメトリクス

`sliceMetrics`	Metrics on data slices for machine learning model (R2026a 以降)
`plot`	Plot bar graph of slice metric (R2026a 以降)
`report`	Generate slice metrics report (R2026a 以降)

モデルの精度の比較検定

`testcholdout`	2 つの分類モデルの予測精度を比較
`testckfold`	交差検証の反復により 2 つの分類モデルの精度を比較

オブジェクト

すべて展開する

特徴選択

FeatureSelectionNCAClassification 近傍成分分析 (NCA) を使用する分類用の特徴選択

特徴量エンジニアリング

FeatureTransformer 生成された特徴変換

ハイパーパラメーターの最適化

`BayesianOptimization`	ベイズ最適化の結果
`HyperparameterOptimizationOptions`	Hyperparameter optimization options (R2024b 以降)
`AggregateBayesianOptimization`	Aggregate Bayesian optimization results (R2024b 以降)
`SupervisedLearningBayesianOptimization`	Results of Bayesian optimization for supervised learning model (R2026a 以降)

プロパティ

ConfusionMatrixChart のプロパティ	混同行列チャートの外観と動作
ROCCurve のプロパティ	受信者動作特性 (ROC) 曲線の外観と動作 (R2022a 以降)

トピック

分類学習器アプリ

分類学習器アプリにおける分類モデルの学習
自動、手動および並列学習など、分類モデルの学習、比較および改善を行うためのワークフローです。
分類学習器における分類器の性能の可視化と評価
モデルの精度の値を比較し、クラスの予測をプロットすることにより結果を可視化し、混同行列でクラスごとの性能をチェックする。
分類学習器アプリの使用による特徴選択と特徴変換
分類学習器で、プロットまたは特徴ランク付けアルゴリズムを使用して有用な予測子を識別し、含める特徴量を選択し、PCA を使用して特徴量を変換する。

データの合成

Handle Class Imbalance in Binary Classification
Handle class imbalance in binary classification using decision thresholding, random undersampling, random oversampling, and SMOTE (Synthetic Minority Oversampling Technique).

特徴選択

特徴選択の紹介
特徴選択アルゴリズムについて学び、特徴選択に使用できる関数を確認します。
逐次特徴選択
このトピックでは、逐次特徴選択の基本を説明し、カスタム基準と関数 sequentialfs を使用して逐次的に特徴量を選択する例を示します。
近傍成分分析 (NCA) 特徴選択
近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。
分類に NCA を使用して特徴量を判別するための正則化パラメーターの調整
この例では、交差検証を使用して fscnca の正則化パラメーターを調整する方法を示します。
判別分析分類器の正則化
モデルの予測力を損なわずに予測子を削除して、よりロバストで簡潔なモデルを作成します。
高次元のデータを分類する特徴量の選択
この例では、高次元データを分類するための特徴量を選択する方法を示します。

特徴量エンジニアリング

分類用の自動特徴量エンジニアリング
分類モデルに学習させる前に gencfeatures を使用して新しい特徴を設計する。新しいデータの予測の前に同じ特徴変換を新しいデータセットに適用する。

自動モデル選択

ベイズ最適化および ASHA 最適化による分類器の自動選択
fitcauto を使用し、指定した学習予測子と応答データに基づいてさまざまなハイパーパラメーターの値をもつ分類モデルのタイプの選択を自動的に試します。

ハイパーパラメーターの最適化

ベイズ最適化のワークフロー
近似関数を使用するか bayesopt を直接呼び出してベイズ最適化を実行します。
ベイズ最適化用の変数
ベイズ最適化用の変数を作成します。
ベイズ最適化の目的関数
ベイズ最適化の目的関数を作成します。
ベイズ最適化の制約
ベイズ最適化に対してさまざまな種類の制約を設定します。
bayesopt を使用した交差検証分類器の最適化
ベイズ最適化を使用して交差検証損失を最小化します。
ベイズ最適化の使用による分類器の当てはめの最適化
近似関数で名前と値の引数 OptimizeParameters を使用して交差検証損失を最小化する。
ベイズ最適化のプロット関数
ベイズ最適化を視覚的に監視します。
ベイズ最適化の出力関数
ベイズ最適化を監視します。
ベイズ最適化のアルゴリズム
ベイズ最適化の基となるアルゴリズムについて理解します。
並列ベイズ最適化
並列ベイズ最適化はどのように機能するか。

モデルの解釈

機械学習モデルの解釈
lime オブジェクトおよび shapley オブジェクトと関数 plotPartialDependence を使用してモデル予測を説明する。
機械学習モデルのシャープレイ値
介入型アルゴリズムまたは条件付きアルゴリズムを使用して機械学習モデルのシャープレイ値を計算する。
Shapley Output Functions
Stop Shapley computations, create plots, save information to your workspace, or perform calculations while using shapley.

交差検証

並列計算を使用する交差検証の実装
並列計算を使用して交差検証を高速化します。

分類性能の評価

ROC 曲線とパフォーマンスメトリクス
rocmetrics を使用してテストデータセットで分類アルゴリズムの性能を調べる。
perfcurve による性能曲線
関数 perfcurve で受信者動作特性 (ROC) 曲線を計算する方法を学ぶ。

モデルの作成と評価

アプリ

関数

データの合成

特徴選択

特徴量エンジニアリング

自動モデル選択

ハイパーパラメーターの最適化

交差検証

モデルの解釈

Local Interpretable Model-agnostic Explanations (LIME)

シャープレイ値

部分依存

反事実

分類性能の評価

混同行列

受信者動作特性 (ROC) 曲線

データ スライス メトリクス

モデルの精度の比較検定

オブジェクト

特徴選択

特徴量エンジニアリング

ハイパーパラメーターの最適化

プロパティ

トピック

分類学習器アプリ

データの合成

特徴選択

特徴量エンジニアリング

自動モデル選択

ハイパーパラメーターの最適化

モデルの解釈

交差検証

分類性能の評価

データスライスメトリクス