Main Content

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

モデルの作成と評価

特徴選択、特徴量エンジニアリング、モデル選択、ハイパーパラメーターの最適化、交差検証、残差診断、プロット

高品質の回帰モデルを構築するには、正しい特徴量 (予測子) の選択、ハイパーパラメーター (データへの当てはめを行わないモデル パラメーター) の調整、残差診断によるモデル仮定の評価を行うことが重要です。

ハイパーパラメーターの値の選択とモデルの交差検証を繰り返すことにより、ハイパーパラメーターを調整できます。このプロセスでは複数のモデルが生成されますが、推定された汎化誤差が最小になるものが最適なモデルである場合があります。たとえば、SVM モデルを調整するには、一連のボックス制約およびカーネル スケールを選択し、値の各ペアについてモデルを交差検証して、10 分割交差検証の平均二乗誤差の推定値を比較します。

回帰モデルに学習させる前に新しい特徴量を設計するには、genrfeatures を使用します。

回帰モデルの構築と評価を対話的に行うには、回帰学習器アプリを使用します。

調整されたハイパーパラメーターでモデルを自動的に選択するには、fitrauto を使用します。この関数は、回帰モデルのタイプの選択をさまざまなハイパーパラメーターの値で試し、適切に実行されることが期待される最終モデルを返します。データに最適な回帰モデルのタイプがわからない場合は、fitrauto を使用します。

Statistics and Machine Learning Toolbox™ の一部のノンパラメトリック回帰関数では、ベイズ最適化、グリッド探索またはランダム探索による自動的なハイパーパラメーター調整が提供されます。ベイズ最適化を実装するための main 関数である bayesopt は、他の多くの用途にも応用が利きます。詳細は、ベイズ最適化のワークフローを参照してください。

回帰モデルを解釈するために、limeshapley および plotPartialDependence を使用できます。

アプリ

回帰学習器教師あり機械学習を使用して、データを予測するように回帰モデルに学習をさせる

関数

すべて展開する

fsrftestF 検定を使用した回帰のための一変量の特徴量ランク付け (R2020a 以降)
fsrmrmrMinimum Redundancy Maximum Relevance (MRMR) アルゴリズムを使用した回帰用の特徴量のランク付け (R2022a 以降)
fsrnca回帰に近傍成分分析を使用する特徴選択
oobPermutedPredictorImportance回帰木のランダム フォレストについての並べ替えによる out-of-bag 予測子の重要度の推定
partialDependence部分依存の計算 (R2020b 以降)
permutationImportancePredictor importance by permutation (R2024a 以降)
plotPartialDependence部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
predictorImportance回帰木の予測子の重要度の推定
predictorImportance決定木の回帰アンサンブルに関する予測子の重要度の推定
relieffReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
selectFeaturesSelect important features for NCA classification or regression (R2023b 以降)
sequentialfsカスタム基準を使用した逐次特徴選択
stepwiselmステップワイズ回帰の実行
stepwiseglmステップワイズ回帰による一般化線形回帰モデルの作成
genrfeatures回帰用の自動特徴量エンジニアリングの実行 (R2021b 以降)
describe生成された特徴量の説明 (R2021a 以降)
transform生成された特徴量を使用した新しいデータの変換 (R2021a 以降)
fitrauto最適化されたハイパーパラメーターをもつ回帰モデルの自動選択 (R2020b 以降)
bayesoptベイズ最適化を使用した最適な機械学習のハイパーパラメーターの選択
hyperparameters近似関数を最適化するための変数の説明
optimizableVariablebayesopt またはその他のオプティマイザーの変数の説明

時間に依存しないデータの場合

crossval交差検証を使用した損失の推定
cvpartition交差検証用のデータの分割
repartition交差検証のための再分割データ
test交差検証用のテスト インデックス
training交差検証用の学習インデックス

時系列データの場合

tspartition交差検証用の時系列データの分割 (R2022b 以降)
test時系列交差検証用のテスト インデックス (R2022b 以降)
training時系列交差検証用の学習インデックス (R2022b 以降)

Local Interpretable Model-agnostic Explanations (LIME)

limeLocal Interpretable Model-agnostic Explanations (LIME) (R2020b 以降)
fitLocal Interpretable Model-agnostic Explanations (LIME) の単純モデルの当てはめ (R2020b 以降)
plotLocal Interpretable Model-agnostic Explanations (LIME) の結果のプロット (R2020b 以降)

シャープレイ値

shapleyシャープレイ値 (R2021a 以降)
fitクエリ点のシャープレイ値の計算 (R2021a 以降)
plot棒グラフを使用したシャープレイ値のプロット (R2021a 以降)
boxchartVisualize Shapley values using box charts (box plots) (R2024a 以降)
swarmchartVisualize Shapley values using swarm scatter charts (R2024a 以降)

部分依存

partialDependence部分依存の計算 (R2020b 以降)
plotPartialDependence部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
coefCI線形回帰モデルの係数推定値の信頼区間
coefTest線形回帰モデルの係数に対する線形仮説検定
dwtest線形回帰モデル オブジェクトによるダービン・ワトソン検定
plot線形回帰モデルの散布図または追加変数プロット
plotAdded線形回帰モデルの追加変数プロット
plotAdjustedResponse線形回帰モデルの調整応答プロット
plotDiagnostics線形回帰モデルの観測値の診断情報をプロット
plotEffects線形回帰モデルの予測子の主効果をプロット
plotInteraction線形回帰モデルの 2 つの予測子の交互作用効果のプロット
plotResiduals線形回帰モデルの残差プロット
plotSlice当てはめた線形回帰面を通るスライスのプロット
coefCI一般化線形回帰モデルの係数推定の信頼区間
coefTest一般化線形回帰モデルの係数に対する線形仮説検定
devianceTest一般化線形回帰モデルの逸脱度の分析
plotDiagnostics一般化線形回帰モデルの観測値の診断情報のプロット
plotResiduals一般化線形回帰モデルの残差プロット
plotSlice当てはめられた一般化線形回帰面を通るスライスのプロット
coefCI非線形回帰モデルの係数推定の信頼区間
coefTest非線形回帰モデルの係数に対する線形仮説検定
plotDiagnostics非線形回帰モデルの診断プロット
plotSlice当てはめた非線形回帰面を通るスライスのプロット
linhyptest線形仮説検定

オブジェクト

すべて展開する

FeatureSelectionNCARegression近傍成分分析 (NCA) を使用する回帰用の特徴選択
FeatureTransformer生成された特徴変換 (R2021a 以降)
BayesianOptimizationベイズ最適化の結果

トピック

回帰学習器アプリのワークフロー

特徴選択

  • 特徴選択の紹介
    特徴選択アルゴリズムについて学び、特徴選択に使用できる関数を確認します。
  • 逐次特徴選択
    このトピックでは、逐次特徴選択の基本を説明し、カスタム基準と関数 sequentialfs を使用して逐次的に特徴量を選択する例を示します。
  • 近傍成分分析 (NCA) 特徴選択
    近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。
  • 回帰に NCA を使用するロバスト特徴選択
    カスタムなロバスト損失関数を NCA で使用して、外れ値に対してロバストな特徴選択を実行します。
  • ランダム フォレストの予測子の選択
    交互作用検定アルゴリズムを使用してランダム フォレストの分割予測子を選択します。

特徴量エンジニアリング

  • 回帰用の自動特徴量エンジニアリング
    回帰モデルに学習させる前に新しい特徴量を設計するために、genrfeatures を使用する。新しいデータの予測の前に同じ特徴変換を新しいデータ セットに適用する。

自動モデル選択

ハイパーパラメーターの最適化

モデルの解釈

  • 機械学習モデルの解釈
    lime オブジェクトおよび shapley オブジェクトと関数 plotPartialDependence を使用してモデル予測を説明する。
  • 機械学習モデルのシャープレイ値
    介入型アルゴリズムまたは条件付きアルゴリズムを使用して機械学習モデルのシャープレイ値を計算する。
  • Shapley Output Functions
    Stop Shapley computations, create plots, save information to your workspace, or perform calculations while using shapley.

交差検証

線形モデルの診断

  • 線形回帰の結果の解釈
    線形回帰の出力統計を表示および解釈します。
  • 線形回帰
    線形回帰モデルを当てはめ、結果を調べます。
  • 交互作用の影響による線形回帰
    交互作用効果がある線形回帰モデルを作成および分析し、結果を解釈します。
  • 出力と診断統計量の概要
    モデルのプロパティとオブジェクト関数を使用して、当てはめたモデルを評価する。
  • F 統計量と t 統計量
    線形回帰における F 統計量は、分散分析 (ANOVA) 手法で使用される検定統計量です。これにより、モデルまたはモデルの成分の有意性を検定できます。t 統計量は、回帰係数に関する推定を行うために役立ちます。
  • 決定係数 (R-squared)
    決定係数 (R-squared) は、線形回帰モデルの独立変数 X で説明される応答変数 y の変化に比例する量を表します。
  • 係数の標準誤差と信頼区間
    推定された係数の分散と共分散から、回帰係数の推定値の精度がわかります。
  • 残差
    残差は、y の外れ値を検出し、回帰モデルの誤差項に関する線形回帰仮定を確認する場合に便利です。
  • ダービン・ワトソン検定
    ダービン・ワトソン検定は、時系列データの残差間の自己相関の有無を評価します。
  • クックの距離
    クックの距離は X の値 (予測子変数の観測数) から外れ値を特定する場合に便利です。
  • ハット行列とてこ比
    ハット行列を使用するとてこ比を測定できます。
  • 1 標本を取り除いたときの統計
    1 標本を取り除いたときの共分散の変化 (CovRatio) により、回帰近似に影響を与える観測値が特定されます。

一般化線形モデルの診断

  • 一般化線形モデル
    一般化線形モデルは、線形手法を使用して、予測子項と応答変数との間の潜在的な非線形関係を説明します。

非線形モデルの診断

  • 非線形回帰
    パラメトリック非線形モデルは、連続応答変数と 1 つ以上の連続予測子変数の関係を表します。