Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

統計と機械学習を使用してデータを分析およびモデル化

 

Statistics and Machine Learning Toolbox™ には、データを記述、解析、およびモデル化する関数やアプリが用意されています。記述統計および探索的データ解析のためのプロットを使用したり、確率分布をデータに近似したり、モンテカルロ シミュレーションのために乱数を生成できるほか、仮説検定を行うことも可能です。回帰および分類アルゴリズムにより、データから推定を行い、予測モデルを作成できます。

また、多次元データの解析については、Statistics and Machine Learning Toolbox では特徴選択、ステップワイズ回帰、主成分分析 (PCA)、正則化およびその他の次元削減方法が提供されており、モデルに影響を与える変数または特徴の特定が可能です。

このツールボックスは、SVM (サポート ベクター マシン)、ブースティングされた決定木とバギングされた決定木、k 近傍、 k 平均、k –medoid 法、階層クラスタリング、混合ガウスモデルおよび隠れマルコフ モデルを含む教師ありおよび教師なしの機械学習アルゴリズムを提供します。多くの統計手法および機械学習アルゴリズムは、メモリに収まりきらない大きなデータ セットの計算に使用できます。

探索的データ解析

対話型グラフィックスによる統計プロッティング、記述統計を通じてデータを検討します。クラスタリングを使用してパターンと特徴量を特定します。

可視化

確率プロット、箱ひげ図、ヒストグラム、Q-Qプロット、および多変量分析用の高度なプロット (樹状図、バイプロット、アンドリュース プロットなど) を使用してデータを視覚的に探索します。

多次元散布図を使用して、変数間の関係を検討

記述統計

いくつかの関連性の高い変数を用いると、大規模なデータセットであっても、すばやく理解して記述することができます。

グループ化された平均と分散を使用してデータを探索

クラスター分析

k 平均法、k-medoids 法、DBSCAN、階層クラスタリング、混合ガウスおよび隠れマルコフ モデルを使用してデータをグループ化し、パターンを見つけます。

2 つの同心円グループに DBSCAN を適用

特徴抽出および次元削減

生データを機械学習に最も適した特徴量に変換します。繰り返し、新たな特徴量を探索して作成し、パフォーマンスを最適化する特徴量の組を選択します。

特徴抽出

スパース フィルタリングや再構成型独立成分分析 (RICA) などの教師なしの学習技術を使用して、データから特徴量を抽出します。専門的な手法を使用して、画像、信号、テキスト、および数値データから特徴量を抽出することもできます。

モバイル端末から提供された信号から特徴量を抽出

特徴選択

データのモデル化において、予測精度を最大限に高める特徴量の部分集合を自動的に特定します。特徴選択手法には、ステップワイズ回帰、逐次特徴選択、正則化、およびアンサンブル法などがあります。

NCA は、モデルの精度を保持する特徴量を選択するのに役立つ

特徴変換および次元削減

既存の (非カテゴリカル) 特徴量を新しい予測子変数に変換して次元削減を行うと、記述力の小さい特徴量を落とすことができます。特徴量変換手法には、PCA、因子分析、非負値行列因子分解などがあります。

PCA は多変量データを、その情報の大部分を保持しながら、より低次元の直交座標系にそのデータを射影する。

機械学習

対話型アプリを使用して分類および回帰モデルを構築します。特徴量を自動的に選択し、ハイパーパラメータを最適化してモデルを調整します。

予測モデルの学習、検証、調整

さまざまな機械学習アルゴリズムの比較、特徴量の選択、ハイパーパラメーターの調整、予測性能の評価を行います。

分類

カテゴリカルな応答変数を 1 つ以上の予測子の関数としてモデル化します。さまざまなパラメトリックおよびノンパラメトリックの分類アルゴリズム (ロジスティック回帰、SVM、ブースティングされた決定木とバギングされた決定木、単純ベイズ、判別分析、k 近傍法など) を使用します。

分類学習器アプリで対話的に分類器の学習を実行

モデルの自動最適化

モデルの精度を高めるには、ハイパーパラメーターを自動的に調整し、特徴量を選択して、データセットの不均衡をコストマトリックスで対処します

ベイズ最適化を使用してハイパーパラメーターを効率的に最適化

回帰および ANOVA

連続応答変数を 1 つ以上の予測子の関数としてモデル化します。これには、線形および非線形回帰、混合効果モデル、一般化線形モデル、ノンパラメトリック回帰を使用します。分散分析 (ANOVA) を使用して、分散をさまざまな発生源に割り当てます。

線形回帰および非線形回帰

多数の線形または非線形回帰アルゴリズムから選択して、複数の予測子または応答変数を持つ複雑なシステムの動作をモデル化します。多層または階層型、線形、非線形、および一般化線形混合効果モデルを入れ子および/または交差変量効果と共に近似して、縦方向またはパネル分析、反復測定、および成長モデリングを実行します。

回帰学習器アプリで対話的に回帰モデルを近似

ノンパラメトリック回帰

SVM、ランダムフォレスト、ガウス過程、ガウスカーネルなどは予測子と応答の関係を示すモデルを指定せずに、正確に近似をします。

分位点回帰を使用して、外れ値を識別

分散分析 (ANOVA)

標本分散をいくつかの異なる発生源に帰し、変動がグループ内で発生したものか、異なるグループ間で発生したものなのかを決定します。1 因子、2 因子、多因子、多変量、ノンパラメトリック分散分析 (ANOVA)、共分散分析 (ANOCOVA)、および反復測定分散分析 (RANOVA) を用います。

多因子分散分析 (ANOVA) を使用してグループを検定

確率分布および仮説検定

分布をデータへ近似させます。サンプルごとの差異が有意か、またはランダムデータの変動に一致しているかを解析します。さまざまな分布から乱数を生成します。

確率分布

連続分布および離散分布の近似、統計プロットを使用した適合度の評価、40 以上の異なる分布の確率密度関数および累積分布関数の計算を行うことができます。

Distribution Fitter アプリを使用して対話的に分布を近似

乱数生成

近似した確率分布または作成した確率分布から、擬似乱数ストリームおよび準乱数ストリームを生成します。

乱数を対話的に生成

仮説検定

t 検定、分布検定 (カイ二乗、ジャック-ベラ、リリーフォースおよびコルモゴルフ-スミルノフ)、および 1 標本、対応のある 2 標本、独立した 2 標本のノンパラメトリック検定を行います。自己相関と乱数度の検定を行い、分布を比較します (2 標本コルモゴルフ-スミルノフ)。

片側 t 検定における棄却域

産業統計

効果とデータの傾向を統計的に分析します。カスタマイズされた実験計画法や統計的工程管理などの産業用統計技術を適用します。

実験計画法 (DOE)

カスタマイズした実験計画法 (DOE)を定義、分析、および可視化します。データ入力が出力に及ぼす影響の情報を生成できるよう、実用的な計画を作成、テストし、データ入力を操作します。

ボックスベーンケン計画法を適用して、高次の応答曲面を生成

統計的工程管理 (SPC)

プロセスの可変性を評価することで、製品やプロセスを監視、改良します。管理図の作成、工程能力の見積もり計算、およびゲージR&R(反復性と再現性)の評価を行います。

管理図を使用して製造工程を監視

信頼性および生存時間分析

コックス比例ハザード回帰を行い、分布の近似を実施することで、打ち切りの有無にかかわらず、故障までの時間データを可視化して分析します。経験的ハザード関数、生存時間関数、累積分布関数、およびカーネル密度推定値を計算します。

「打ち切られた」値の例としての故障データ

ビッグデータとクラウドへの拡張

統計的および機械学習の手法をメモリに収まらないデータに適用します。クラスターやクラウドインスタンスでの統計的計算と機械学習モデルのトレーニングを高速化します。

tall 配列でビッグデータを分析する

多くの分類、回帰、クラスタリング アルゴリズムで tall 配列とテーブルを利用できます。それらを用いると、元のコードを変更せずに、メモリに収まらないデータセットを使ってモデルを学習させることができます。

Parallel Computing Toolbox または MATLAB Parallel Server™ を使用して計算を高速化

クラウドおよび分散コンピューティング

クラウドインスタンスを使用して、統計および機械学習の計算を高速化します。MATLAB Online™ 上で全機械学習ワークフローを実行してください。

Amazon または Azure のクラウドインスタンスで計算を実行

展開とコード生成

統計や機械学習を組み込みシステムに展開し、C コードを使用して計算負荷の高い計算を高速化して、エンタープライズシステムと統合します。

コード生成

MATLAB CoderTM を使用して、分類および回帰アルゴリズム、記述統計量、および確率分布を推定するために、移植可能で読み取り可能な C または C++ コードを生成します。MATLAB Function ブロックとシステムブロックから機械学習モデルを使用して、高性能なシミュレーションの検証と確認の作業を高速化します。

2 つの実装方法:C コードを生成するか、MATLAB コードをコンパイルします。

アプリケーションおよびエンタープライズ システムとの統合

MATLAB Compiler™ を使用して、統計、機械学習モデルをスタンドアロン、MapReduce、Spark™ アプリケーション、Web アプリケーション、および Microsoft® Excel® アドインとして実装します。MATLAB Compiler SDK™ を使用して、C/C++ 共有ライブラリ、Microsoft .NET アセンブリ、Java® クラス、および Python® パッケージを構築します。

MATLAB Compiler を使用して、空気の質の分類モデルを統合

展開済みモデルの更新

C/C++ 予測コードを再生成せずに、展開済みのモデルのパラメーターを更新します。

コード生成とモデル更新のワークフロー

Latest Features

Machine Learner Apps

Optimize hyperparameters in Classification Learner and Regression Learner, and specify misclassification costs in Classification Learner

Code Generation

Update a deployed decision tree or linear model without regenerating code, and generate C/C++ code for probability distribution functions (requires MATLAB Coder)

Code Generation

Generate fixed-point C/C++ code for the prediction of an SVM model (requires MATLAB Coder and )

Spectral Clustering

Perform spectral clustering using spectralcluster

Feature Ranking

Rank numeric and categorical features by their importance using a minimum redundancy maximum relevance (MRMR) algorithm and rank features for unsupervised learning using Laplacian scores

See the release notes for details on any of these features and corresponding functions.

新機能

機械学習アプリ

分類学習器と回帰学習器でハイパーパラメーターを最適化し、分類学習器で誤分類のコストを特定する

コード生成

コードを再生成することなくデプロイされた決定木または非線形モデルを更新し、確率分布関数のための C/C++ コードを生成 (要 MATLAB Coder)

コード生成

SVM モデルの予測のために固定小数点 C/C++ コードを生成 (要 MATLAB Coder および Fixed-Point Designer)

スペクトル クラスタリング

spectralcluster を使用してスペクトル クラスタリングを実行

特徴量ランキング

MRMR (minimum redundancy maximum relevance) アルゴリズムを使用して数値およびカテゴリー特徴量を重要度に応じてランク付けし、ラプラシアンスコアを使用して教師なし学習の特徴量をランク付け

これらの機能および対応する関数の詳細については、リリースノートを参照してください。

無料評価版を入手する

30 日間の無料評価版はこちら

今すぐダウンロード

あなたは学生ですか?

MATLAB および Simulink 学生向けソフトウェアの入手

詳細を見る