主な機能

  • 線形回帰、一般化線形回帰、非線形回帰、ロバスト回帰、正則化回帰、ANOVA、反復測定、混合効果モデルなどの回帰手法
  • 次元削減、記述統計、k 平均法クラスタリング、線形回帰、ロジスティック回帰および判別分析のためのビッグ データのアルゴリズム
  • 一変数および多変数の確率分布乱数および準乱数生成器、およびマルコフ連鎖サンプラー
  • 分布、分散、位置の仮説検定および DOE (実験計画法) 手法 (最適計画法、要因計画法、応答曲面計画法)
  • サポート ベクター マシン (SVM)、ブースティングされた決定木とバギングされた決定木、k 最近傍、単純ベイズ、判別分析、ガウス過程回帰を含む、教師あり機械学習向けの分類学習器アプリおよびアルゴリズム
  • k 平均法、k-medoids 法、階層クラスタリング、混合ガウスおよび隠れマルコフ モデルを含む、教師なしの機械学習アルゴリズム
  • 最適なハイパーパラメーターを検索することで機械学習アルゴリズムを調節するベイズ最適化
MATLAB® の機械学習ツールを使用して、どのように回帰、クラスタリング、および分類の問題を解決できるかを解説します。
Perform statistical modeling and analysis using Statistics and Machine Learning Toolbox™.

探索的データ解析

Statistics and Machine Learning Toolbox™ には、対話的グラフィックスによる統計プロット、クラスター解析のためのアルゴリズム、大規模なデータセットのための記述統計など、データ探索方法が数多く用意されています。


対話的グラフィックスによる統計プロット

Statistics and Machine Learning Toolbox には、データを視覚的に探索するためのグラフやチャートが用意されています。MATLAB® のプロット タイプに加え、確率プロット箱ひげ図ヒストグラム散布図ヒストグラム3 次元ヒストグラム制御チャート分位数-分位数プロットなどが用意されています。また、系統樹バイプロット平行座標チャートアンドリュース プロットなどの、多変量解析のための専用プロットも含まれています。

さまざまな統計プロットを使用して多変量データを可視化する。

記述統計

記述統計では、関連性のあるいくつかの数字を使用して、大規模のデータ セットでもすばやく理解して記述することができます。Statistics and Machine Learning Toolbox には、次の計算のための関数が用意されています。

These functions help you summarize values in a data sample using a few highly relevant numbers.

生産国別にグループ化した自動車加速データの箱ひげ図。

再標本化手法

場合によっては、パラメトリック手法を使用した要約統計量の推定ができないことがあります。このような場合に備え、Statistics and Machine Learning Toolbox には次の再標本化手法が用意されています。

  • データセットからのランダム サンプリング (置き換えありまたはなし)
  • 再標本化により統計量の分布を調査するためのノンパラメトリックブートストラップ関数
  • ジャックナイフ再標本化により統計量の分布を調査するためのジャックナイフ関数
  • ノンパラメトリック ブートストラップを使用した信頼区間を推定するための関数 bootci
LSAT スコアおよびロー スクール GPA を再標本化して相関を調べます。

次元削減

Statistics and Machine Learning Toolbox には、データセットの次元を削減するためのアルゴリズムおよび関数が用意されています。次元削減は、モデルの精度とパフォーマンスを向上させ、解釈可能性を改善し、過適合を防止するのに役立つため、データ解析の重要なステップとなります。特徴変換や 特徴選択 を実行したり、散布図行列や古典的多次元尺度構成法などの可視化手法を使用して変数間の関係を確認したりすることができます。


特徴変換

特徴変換(特徴抽出と呼ばれる場合もある) は、既存の特徴量を新しい特徴量(予測子変数) に変換する次元削減の手法です。より説明的ではない特徴量は失われる場合があります。Statistics and Machine Learning Toolbox では以下の特性変換メソッドが利用可能です。

  • 非負行列因子分解:モデルの項が物理量のような非負の量を表さなければならない場合に使用
  • 主成分分析 (PCA):一意的な直交基底に射影することによってデータをより少ない次元数に集約するために使用
  • 因子分析:データの相関を説明するモデルを作成するために使用
重み付け主成分分析を実行し、結果を解釈します。

特徴選択

特徴選択は、データのモデリングの際に最も予測力のある測定因子 (予測子変数) のサブセットのみを選択する次元削減の手法です。次元数の多いデータを扱う場合や、すべての特性についてデータを収集することがコスト的にできない場合に役立ちます。Statistics and Machine Learning Toolbox では以下の特徴選択メソッドが利用可能です。

  • ステップワイズ回帰: 予測の精度が向上しなくなるまで特徴量を順に追加または削除します。線形回帰または一般化線形回帰アルゴリズムと共に使用できます。
  • 逐次特徴選択: ステップワイズ回帰に似ており、任意の教師あり学習アルゴリズムおよびカスタムの性能測定機能と共に使用できます。
  • ブースティングされた決定木とバギングされた決定木: out-of-bag 推定から変数の重要性を計算するアンサンブル法
  • 正則化 (lasso および elastic net):縮小推定器により、冗長な特徴量の重みをゼロにすることで、対応する特徴量を取り除きます。
がんの検出のために重要な特徴量を選択。

多変量可視化

Statistics and Machine Learning Toolbox には、次のような、多変量データを視覚的に探索するためのグラフやチャートが用意されています。

  • 散布プロット行列
  • 樹形図
  • バイプロット
  • 平行座標チャート
  • アンドリュース プロット
  • グリフ プロット
モデルの年がさまざまな自動車の変数に与える影響を示すグループ散布プロット行列。

機械学習

機械学習アルゴリズムは、あらかじめ決められた方程式をモデルとして仮定せずに、データから直接情報を "学習" する計算手法を使用します。Statistics and Machine Learning Toolbox には、教師ありおよび教師なし機械学習を実行する方法が用意されています。

簡単な音声信号(日本語の母音)を題材として、機械学習の幾つかの基本的な概念を説明します。

分類

分類アルゴリズムでは、カテゴリカルな応答変数を 1 つ以上の予測子の関数としてモデル化できます。Statistics and Machine Learning Toolbox には、次のようなさまざまなパラメトリックおよびノンパラメトリックの分類アルゴリズムをカバーするアプリや関数が用意されています。

ベイズ最適化を使用して交差検定 SVM 分類器の最適パラメーターを見つける方法を解説します。

分類学習器アプリ

対話的なデータ分析、特徴選択、交差検定方式の指定、モデル学習および結果の評価などの一般的なタスクを実行する分類学習器アプリを使用できます。教師あり機械学習を使用してモデルの学習とデータの分類を行う分類学習器アプリ。これを使用して次のような一般的なタスクを実行できます。

  • データのインポートおよび交差検定設定の指定
  • データ分析および特徴選択
  • 複数の分類アルゴリズムを使用するモデル学習
  • モデルの比較と評価
  • コンピューター ビジョンおよび信号処理などのアプリケーションで使用するための学習済みモデルの共有
The Classification Learner app lets you train models to classify data using supervised machine learning.

クラスター分析

Statistics and Machine Learning Toolbox には、類似度の尺度に基づいてデータをグループ化することによりデータ セットのパターンを発見する、クラスター分析を実行するアルゴリズムが含まれています。利用可能なアルゴリズムには k 平均法k-medoids 法階層クラスタリング混合ガウスおよび隠れマルコフ モデルがあります。クラスター数が未知の場合は、クラスター評価手法により、指定したメトリックに基づいてデータ内にあるクラスター数を決定できます。

遺伝子発現データを調べることで、遺伝子発現様式の中のパターンを検出する方法について学ぶ

ノンパラメトリック回帰

また Statistics and Machine Learning Toolbox では、予測子と応答間の関係を記述するモデルを指定しなくても正確な近似を生成できるように、ノンパラメトリック回帰手法がサポートされています。ノンパラメトリック回帰手法は、より広く回帰のための教師あり機械学習として分類される場合があり、決定木に加え、ブースティングされた回帰木、またはバギングされた回帰木サポート ベクター マシン回帰が含まれています。

TreeBagger を使用した回帰木のアンサンブル学習により保険リスクを予測します。

回帰および ANOVA


回帰

回帰手法を使うと、連続応答変数を 1 つ以上の予測子の関数としてモデル化できます。Statistics and Machine Learning Toolbox には、線形回帰、一般化線形モデル、非線形回帰および混合効果モデルなどの幅広い回帰アルゴリズムが用意されています。


線形回帰

線形回帰は、連続的な応答変数を 1 つ以上の予測子変数として記述するために使用される統計的モデル化手法です。これは、複雑なシステムの挙動を理解し予測したり、実験データ、金融データ、および生物学的データを解析したりするために役立ちます。Statistics and Machine Learning Toolbox には以下を含むさまざまな種類の線形回帰モデルおよび近似方法が用意されています。

  • 単回帰: 1 つの予測子のみをもつモデル
  • 重回帰: 複数の予測子をもつモデル
  • 多変量回帰: 複数の応答変数をもつモデル
  • ロバスト回帰: 外れ値があるモデル
  • ステップワイズ回帰: 自動的に変数を選択するモデル
  • 正則化回帰: 冗長性のある予測子を扱うことができ、リッジlasso および elastic net アルゴリズムにより過適合を防ぐことのできるモデル
相関性のあるデータがある場合に正確な近似を生成する方法を紹介します。

非線形回帰

非線形回帰は、実験データ内の非線形の関係を記述するのに役立つ統計モデリング手法です。非線形回帰モデルは、モデルが非線形方程式で記述されるパラメトリックなモデルであると一般的に想定されます。Statistics and Machine Learning Toolbox は、データ内の外れ値を扱うロバスト非線形近似も提供します。

診断プロット、残差プロット、スライド プロットを使用して当てはめた後の非線形モデルを調べます

一般化線形モデル

一般化線形モデルは非線形モデルの特殊なケースであり、線形手法を使用します。このモデルでは、応答変数が、期待される応答の値と線形予測子の関係を示すリンク関数および非正規分布をもつことができます。Statistics and Machine Learning Toolbox は次の応答分布をもつ一般化線形モデルの近似をサポートします。

  • 正規分布
  • 二項分布 (ロジスティック回帰またはプロビット回帰)
  • ポアソン分布
  • ガンマ分布
  • 逆ガウス分布
一般線形モデルを glmfit および glmval で近似して評価します。

混合効果モデル

線形および非線形混合効果モデルは、線形および非線形モデルをデータに関して一般化したモデルであり、データはグループから収集され、グループにまとめられます。これらのモデルは、1 つ以上のグループ変数に応じて変化する係数をもつ応答変数と独立変数の関係を記述します。Statistics and Machine Learning Toolbox は、入れ子および交差変量効果をもつ多層モデルまたは階層モデル、線形モデル、非線形モデルおよび一般化線形混合効果モデルの近似をサポートします。これは次のようなさまざまな調査の実施に使用できます。

nlmefit および nlmefitsa を使用して混合効果モデルを近似および評価します。

モデルの評価

Statistics and Machine Learning Toolbox では、次のような統計有意性の検定や適合性の測定により、回帰アルゴリズムについてのモデルの評価を実行できます。

  • F 統計量と t 統計量
  • 決定係数および調整済み決定係数
  • 交差検定された平均平方根誤差
  • 赤池情報量基準 (AIC) およびベイズ情報量基準 (BIC)

回帰係数と予測値の両方に対して、信頼区間を計算できます。


分散分析

分散分析 (ANOVA) では、標本分散を幾つかの異なる変動要因に割り当てることで  変動がグループ内で発生したものか、異なるグループ間で発生したものなのかを決定します。  Statistics and Machine Learning Toolbox には、次の分散分析アルゴリズムと、関連する手法が用意されています。

1970 年から 1982 年までの間に製造された 406 台の自動車の総走行距離およびその他の情報に基づいて多因子 ANOVA を実行します。

確率分布

Statistics and Machine Learning Toolbox には、パラメトリックとノンパラメトリックの確率分布を使って作業するための関数とアプリが用意されています。これらのツールを使用して、連続分布および離散分布の近似、統計プロットを使用した適合度の評価、確率密度関数および累積分布関数の計算、確率分布からの乱数および準乱数の生成を行うことができます。


分布のデータへの近似

Distribution Fitting アプリでは、事前定義された一変量確率分布、ノンパラメトリック (カーネル平滑化) 推定器またはユーザーが定義するカスタムの分布を使用して、データを近似できます。このアプリは、完全なデータと打ち切り (信頼性) データの両方をサポートし、データの除外、セッションの保存と読み込み、および MATLAB コードの生成が可能です。コマンド ラインで分布パラメーターを推定したり、支配的なパラメーターに対応する確率分布を作成することもできます。

Distribution Fitting アプリを使用して、対話形式により確率分布をデータに近似します。

適合度の評価

Statistics and Machine Learning Toolbox には、データセットが特定の分布にどの程度一致するかを評価するための、統計プロットが用意されています。正規分布、指数分布、極値分布、対数正規分布、レイリー分布、ワイブル分布など、さまざまな標準的な分布に対する確率プロットが含まれます。確率プロットは、完全なデータセットおよび打ち切りデータセットから生成できます。また、分位数-分位数プロットを使用して、与えられた分布が標準の正規分布にどの程度一致しているかを評価できます。

また Statistics and Machine Learning Toolbox には、データセットが異なる確率分布に一致するかどうかを決定する、仮説検定が用意されています。特定の分布検定には次のものが含まれています。

  • アンダーソン-ダーリング検定
  • コルモゴルフ-スミルノフの片側検定と両側検定
  • カイ二乗適合度検定
  • リリーフォース検定
  • アンサリ-ブラッドリー検定
  • ジャック-ベラ検定
  • ダービン-ワトソン検定
打ち切りや重み付け、双峰性を持つデータに対する最尤推定の実行

乱数の生成

このツールボックスには、確率分布から疑似乱数や準乱数のストリームを生成するための関数が用意されています。乱数は、近似した確率分布または作成した確率分布に random メソッドを適用して生成できます。Statistics and Machine Learning Toolbox には、次の操作のための関数も用意されています。

  • t 分布、正規分布、コピュラ分布、ウィシャート分布などの多変量分布からのランダム サンプルの生成
  • 有限の母集団からのサンプリング
  • ラテン超方格サンプリングの実行
  • ピアソン システムまたはジョンソン システムの分布からのサンプル生成

また、準乱数ストリームを生成することもできます。準乱数ストリームは、単位超立方体からの非常に一様な標本を生成します。準乱数ストリームは、完全なカバレッジを達成するために必要な標本数が少ないため、多くの場合モンテカルロ シミュレーションを高速化できます。

変数間に複雑な関係が存在する場合、または個々の変数が異なる分布に由来する場合はコピュラを使用して多変数分布からデータを生成します。

仮説検定、DOE および統計的工程管理


仮説検定

ランダムな変動により、異なる条件下で取り出したサンプルが実際に異なるのかどうか、判断が難しい場合があります。サンプルごとの差異が顕著でさらなる詳細な評価を要するのか、それとも予期範囲内の不規則なデータ変動に沿ったものであるのかを分析する際に、仮説検定は重要な解析手法です。

Statistics and Machine Learning Toolbox は、次のような、最も一般的に用いられているパラメトリックおよびノンパラメトリック仮説検定方法をサポートしています。

  • 1 標本および 2 標本 t 検定
  • 1 標本、対応のある 2 標本、独立した 2 標本のノンパラメトリック検定
  • 分布検定 (カイ二乗、ジャック-ベラ、リリーフォースおよびコルモゴルフ-スミルノフ)
  • 分布の比較 (2 標本 コルモゴルフ-スミルノフ)
  • 自己相関関係と無作為性に関する検定
  • 回帰係数での線形仮説検定
仮説検定に必要なサンプル サイズの計算。

実験計画法 (DOE)

Statistics and Machine Learning Toolbox では、カスタマイズした実験計画法 (DOE) を定義、解析、可視化することができます。実験計画法 (DOE) のための関数により、統計的モデリングのためのデータを収集するために、実際的な計画を作成してテストできます。これらの計画法により、どの実験条件が結果に影響を与えるかを理解するために、データ入力を操作することができます。サポートされている計画法の種類は次のとおりです。

  • 完全実施要因計画
  • 一部実施要因計画
  • 応答曲面計画 (中央複合および Box-Behnken)
  • D-最適計画
  • ラテン超方格計画

たとえば、ANOVA、線形回帰および応答曲面モデリングを使用して入力の影響や交互作用を計算し、その後、主効果プロット、交互作用プロット、多変量チャートで結果を可視化することができます。

中心複合計画およびボックスベーンケン計画を生成します。

統計的工程管理

Statistics and Machine Learning Toolbox には、SPC (統計的工程管理) をサポートする一連の関数が用意されています。これらの関数を使用してプロセスの可変性を評価することで、製品やプロセスを監視し、改良することができます。SPC の関数により、以下が可能です。

  • 反復性および再現性の評価
  • 工程能力の計算
  • 管理図の作成
  • 管理図データへの Western Electric および Nelson 管理ルールの適用
管理図を使用してエンジン ファン冷却プロセスの管理限界を可視化します。

ビッグ データ、並列計算、およびコード生成

MATLAB ツールと Statistics and Machine Learning Toolbox を使って、計算量やデータ量が非常に多い統計解析を実行します。


ビッグ データ

多数のツールボックス関数と縦長配列および縦長テーブルを使用して、任意の行数を含む、メモリに収まりきらないデータに統計および機械学習関数を適用できます。これにより使い慣れた MATLAB コードを使い、ローカル ディスク上で大きなデータセットを扱うことができるようになります。また、MATLAB Compiler™ を使用して、Hadoop® などのビッグ データ環境でも操作できるように同じ MATLAB コードを展開することもできます。

サポートされている機能の一覧についてはツールボックスのドキュメンテーションを参照してください。

多数の変数に基づいてフライト出発遅延を予測します。

並列処理

Statistics and Machine Learning Toolbox を Parallel Computing Toolbox™ と併用すると、以下のような統計計算の時間を短縮できます。

サポートされている関数の一覧についてはツールボックスのドキュメンテーションを参照してください。

TreeBagger を並行して使用し、車両輸入の保険リスク ランク付けの回帰を実行します。

C コードの生成

ツールボックスと MATLAB Coder™ を使用し、分類、回帰、クラスタリング、記述統計、および確率分布のための特定の関数に対して移植可能で読み取り可能な C コードを生成することができます。生成されたコードを使用して、統計および機械学習を以下のために利用することができます。

  • 組み込みシステムの開発
  • 他のソフトウェアとの統合
  • 計算量の多い MATLAB コードの高速化

C コード生成でサポートされている関数の一覧については、こちら参照してください。

MATLAB 関数の C コードを生成して、ノイズを含む過去の測定値に基づいて移動する物体の位置を推測します。