Statistics and Machine Learning Toolbox
統計と機械学習を使用してデータを分析およびモデル化
Statistics and Machine Learning Toolbox™ には、データを記述、解析、およびモデル化する関数やアプリが用意されています。記述統計および探索的データ解析のためのプロットを使用したり、確率分布をデータに近似したり、モンテカルロ シミュレーションのために乱数を生成できるほか、仮説検定を行うことも可能です。回帰および分類アルゴリズムにより、データから推定を行い、予測モデルを作成できます。
また、多次元データの解析については、Statistics and Machine Learning Toolbox では特徴選択、ステップワイズ回帰、主成分分析 (PCA)、正則化およびその他の次元削減方法が提供されており、モデルに影響を与える変数または特徴の特定が可能です。
このツールボックスは、SVM (サポート ベクター マシン)、ブースティングされた決定木とバギングされた決定木、k 近傍、 k 平均、k –medoid 法、階層クラスタリング、混合ガウスモデルおよび隠れマルコフ モデルを含む教師ありおよび教師なしの機械学習アルゴリズムを提供します。多くの統計手法および機械学習アルゴリズムは、メモリに収まりきらない大きなデータ セットの計算に使用できます。
詳細を見る:
可視化
確率プロット、箱ひげ図、ヒストグラム、Q-Qプロット、および多変量分析用の高度なプロット (樹状図、バイプロット、アンドリュース プロットなど) を使用してデータを視覚的に探索します。
記述統計
いくつかの関連性の高い変数を用いると、大規模なデータセットであっても、すばやく理解して記述することができます。
クラスター分析
k 平均法、k-medoids 法、DBSCAN、階層クラスタリング、混合ガウスおよび隠れマルコフ モデルを使用してデータをグループ化し、パターンを見つけます。
特徴抽出
スパース フィルタリングや再構成型独立成分分析 (RICA) などの教師なしの学習技術を使用して、データから特徴量を抽出します。専門的な手法を使用して、画像、信号、テキスト、および数値データから特徴量を抽出することもできます。
特徴選択
データのモデル化において、予測精度を最大限に高める特徴量の部分集合を自動的に特定します。特徴選択手法には、ステップワイズ回帰、逐次特徴選択、正則化、およびアンサンブル法などがあります。
特徴変換および次元削減
既存の (非カテゴリカル) 特徴量を新しい予測子変数に変換して次元削減を行うと、記述力の小さい特徴量を落とすことができます。特徴量変換手法には、PCA、因子分析、非負値行列因子分解などがあります。
予測モデルの学習、検証、調整
さまざまな機械学習アルゴリズムの比較、特徴量の選択、ハイパーパラメーターの調整、予測性能の評価を行います。
分類
カテゴリカルな応答変数を 1 つ以上の予測子の関数としてモデル化します。さまざまなパラメトリックおよびノンパラメトリックの分類アルゴリズム (ロジスティック回帰、SVM、ブースティングされた決定木とバギングされた決定木、単純ベイズ、判別分析、k 近傍法など) を使用します。
モデルの自動最適化
モデルの精度を高めるには、ハイパーパラメーターを自動的に調整し、特徴量を選択して、データセットの不均衡をコストマトリックスで対処します
線形回帰および非線形回帰
多数の線形または非線形回帰アルゴリズムから選択して、複数の予測子または応答変数を持つ複雑なシステムの動作をモデル化します。多層または階層型、線形、非線形、および一般化線形混合効果モデルを入れ子および/または交差変量効果と共に近似して、縦方向またはパネル分析、反復測定、および成長モデリングを実行します。
ノンパラメトリック回帰
SVM、ランダムフォレスト、ガウス過程、ガウスカーネルなどは予測子と応答の関係を示すモデルを指定せずに、正確に近似をします。
分散分析 (ANOVA)
標本分散をいくつかの異なる発生源に帰し、変動がグループ内で発生したものか、異なるグループ間で発生したものなのかを決定します。1 因子、2 因子、多因子、多変量、ノンパラメトリック分散分析 (ANOVA)、共分散分析 (ANOCOVA)、および反復測定分散分析 (RANOVA) を用います。
確率分布
連続分布および離散分布の近似、統計プロットを使用した適合度の評価、40 以上の異なる分布の確率密度関数および累積分布関数の計算を行うことができます。
乱数生成
近似した確率分布または作成した確率分布から、擬似乱数ストリームおよび準乱数ストリームを生成します。
仮説検定
t 検定、分布検定 (カイ二乗、ジャック-ベラ、リリーフォースおよびコルモゴルフ-スミルノフ)、および 1 標本、対応のある 2 標本、独立した 2 標本のノンパラメトリック検定を行います。自己相関と乱数度の検定を行い、分布を比較します (2 標本コルモゴルフ-スミルノフ)。
実験計画法 (DOE)
カスタマイズした実験計画法 (DOE)を定義、分析、および可視化します。データ入力が出力に及ぼす影響の情報を生成できるよう、実用的な計画を作成、テストし、データ入力を操作します。
統計的工程管理 (SPC)
プロセスの可変性を評価することで、製品やプロセスを監視、改良します。管理図の作成、工程能力の見積もり計算、およびゲージR&R(反復性と再現性)の評価を行います。
信頼性および生存時間分析
コックス比例ハザード回帰を行い、分布の近似を実施することで、打ち切りの有無にかかわらず、故障までの時間データを可視化して分析します。経験的ハザード関数、生存時間関数、累積分布関数、およびカーネル密度推定値を計算します。
tall 配列でビッグデータを分析する
多くの分類、回帰、クラスタリング アルゴリズムで tall 配列とテーブルを利用できます。それらを用いると、元のコードを変更せずに、メモリに収まらないデータセットを使ってモデルを学習させることができます。
並列計算
並列化により統計計算とモデルトレーニングを高速化します。
クラウドおよび分散コンピューティング
クラウドインスタンスを使用して、統計および機械学習の計算を高速化します。MATLAB Online™ 上で全機械学習ワークフローを実行してください。
コード生成
MATLAB CoderTM を使用して、分類および回帰アルゴリズム、記述統計量、および確率分布を推定するために、移植可能で読み取り可能な C または C++ コードを生成します。MATLAB Function ブロックとシステムブロックから機械学習モデルを使用して、高性能なシミュレーションの検証と確認の作業を高速化します。
アプリケーションおよびエンタープライズ システムとの統合
MATLAB Compiler™ を使用して、統計、機械学習モデルをスタンドアロン、MapReduce、Spark™ アプリケーション、Web アプリケーション、および Microsoft® Excel® アドインとして実装します。MATLAB Compiler SDK™ を使用して、C/C++ 共有ライブラリ、Microsoft .NET アセンブリ、Java® クラス、および Python® パッケージを構築します。
展開済みモデルの更新
C/C++ 予測コードを再生成せずに、展開済みのモデルのパラメーターを更新します。
機械学習アプリ
分類学習器と回帰学習器でハイパーパラメーターを最適化し、分類学習器で誤分類のコストを特定する
コード生成
コードを再生成することなくデプロイされた決定木または非線形モデルを更新し、確率分布関数のための C/C++ コードを生成 (要 MATLAB Coder)
コード生成
SVM モデルの予測のために固定小数点 C/C++ コードを生成 (要 MATLAB Coder および Fixed-Point Designer)
スペクトル クラスタリング
spectralcluster
を使用してスペクトル クラスタリングを実行
特徴量ランキング
MRMR (minimum redundancy maximum relevance) アルゴリズムを使用して数値およびカテゴリー特徴量を重要度に応じてランク付けし、ラプラシアンスコアを使用して教師なし学習の特徴量をランク付け