次元削減と特徴抽出

PCA、因子分析、特徴選択、特徴抽出など

"特徴変換" 手法では、データを新しい特徴量に変換することによりデータの次元を減らします。"特徴選択" 手法は、カテゴリカル変数がデータに含まれている場合など、変数を変換できない場合に適しています。特に最小二乗近似に適している特徴選択手法については、ステップワイズ回帰を参照してください。

ライブエディタータスク

次元削減	ライブエディターでの主成分分析 (PCA) を使用した次元削減 (R2022b 以降)

関数

すべて展開する

特徴選択

`fscchi2`	カイ二乗検定を使用した分類に向けた一変量の特徴量ランク付け (R2020a 以降)
`fscmrmr`	Minimum Redundancy Maximum Relevance (MRMR) アルゴリズムを使用した分類用の特徴量のランク付け (R2019b 以降)
`fscnca`	分類に近傍成分分析を使用する特徴選択
`fsrftest`	F 検定を使用した回帰のための一変量の特徴量ランク付け (R2020a 以降)
`fsrmrmr`	Minimum Redundancy Maximum Relevance (MRMR) アルゴリズムを使用した回帰用の特徴量のランク付け (R2022a 以降)
`fsrnca`	回帰に近傍成分分析を使用する特徴選択
`fsulaplacian`	ラプラシアンスコアを使用して教師なし学習の特徴量をランク付け (R2019b 以降)
`partialDependence`	部分依存の計算 (R2020b 以降)
`plotPartialDependence`	部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
`oobPermutedPredictorImportance`	Out-of-bag predictor importance estimates for random forest of classification trees by permutation
`oobPermutedPredictorImportance`	Out-of-bag predictor importance estimates for random forest of regression trees by permutation
`predictorImportance`	Estimates of predictor importance for classification tree
`predictorImportance`	Estimates of predictor importance for classification ensemble of decision trees
`predictorImportance`	Estimates of predictor importance for regression tree
`predictorImportance`	決定木の回帰アンサンブルに関する予測子の重要度の推定
`relieff`	ReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
`sequentialfs`	カスタム基準を使用した逐次特徴選択
`stepwiselm`	ステップワイズ回帰の実行
`stepwiseglm`	ステップワイズ回帰による一般化線形回帰モデルの作成

特徴抽出

`rica`	再構成 ICA の使用による特徴抽出
`sparsefilt`	スパースフィルターの使用による特徴抽出
`transform`	抽出された特徴量への予測子の変換

t-SNE 多次元可視化

tsne t 分布型確率的近傍埋め込み

PCA と正準相関

`barttest`	バートレットの検定
`canoncorr`	正準相関
`pca`	生データの主成分分析
`pcacov`	共分散行列の主成分分析
`pcares`	主成分分析の残差
`ppca`	確率的主成分分析

因子分析

`factoran`	因子分析
`rotatefactors`	因子負荷量の回転

非負値行列因子分解

nnmf 非負値行列因子分解

多次元尺度構成法

`cmdscale`	古典的多次元尺度構成法
`mahal`	基準標本に対するマハラノビス距離
`mdscale`	非古典的多次元尺度構成法
`pdist`	観測値ペア間のペアワイズ距離
`squareform`	距離行列の形式

プロクラステス解析

procrustes プロクラステス解析

オブジェクト

すべて展開する

特徴選択

`FeatureSelectionNCAClassification`	Feature selection for classification using neighborhood component analysis (NCA)
`FeatureSelectionNCARegression`	Feature selection for regression using neighborhood component analysis (NCA)

特徴抽出

`ReconstructionICA`	再構成 ICA による特徴抽出
`SparseFiltering`	スパースフィルターによる特徴抽出

トピック

特徴選択

特徴選択の紹介
特徴選択アルゴリズムについて学び、特徴選択に使用できる関数を確認します。
逐次特徴選択
このトピックでは、逐次特徴選択の基本を説明し、カスタム基準と関数 sequentialfs を使用して逐次的に特徴量を選択する例を示します。
近傍成分分析 (NCA) 特徴選択

近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。
- 回帰に NCA を使用するロバスト特徴選択
- 分類に NCA を使用して特徴量を判別するための正則化パラメーターの調整
判別分析分類器の正則化
モデルの予測力を損なわずに予測子を削除して、よりロバストで簡潔なモデルを作成します。
ランダムフォレストの予測子の選択
交互作用検定アルゴリズムを使用してランダムフォレストの分割予測子を選択します。

特徴抽出

特徴抽出
特徴抽出は、高レベルの特徴をデータから抽出する一連の方法です。
特徴抽出のワークフロー
この例では、イメージデータからの特徴抽出を行う完全なワークフローを示します。
混合信号の抽出
この例では、rica を使用して混合オーディオ信号を分離する方法を示します。

t-SNE 多次元可視化

t-SNE
t-SNE は、元のデータの一部の特徴量を保持したまま 2 または 3 次元への非線形削減を行うことにより高次元データを可視化する方法です。
t-SNE の使用による高次元データの可視化
この例では、高次元データの有用な低次元埋め込みを t-SNE で作成する方法を示します。
tsne の設定
この例では、さまざまな tsne の設定の影響を示します。
t-SNE の出力関数
出力関数の説明と t-SNE の例です。

PCA と正準相関

主成分分析 (PCA)
主成分分析では、相関関係がある複数の変数を元の変数の線形結合である新しい一連の変数に置き換えることにより、データの次元を削減します。
PCA の使用による米国の都市における生活満足度の分析
重み付き主成分分析を実行し、結果を解釈します。

因子分析

因子分析
因子分析は、多変量データにモデルを当てはめることにより、少数の観測されない (潜在的な) 因子に対する測定された変数の相互依存を推定する方法です。
因子分析の使用による株価の分析
因子分析を使用して、同じ部門の会社では株価が週単位で同じように変化しているかどうかを調べます。
試験の成績に対する因子分析の実行
この例では、Statistics and Machine Learning Toolbox™ を使用してクラスター分析を実行する方法を示します。

非負値行列因子分解

非負値行列因子分解
"非負値行列因子分解" ("NMF") は、特徴空間の低ランク近似に基づく次元削減手法です。
非負値行列因子分解の実行
乗法アルゴリズムおよび交互最小二乗アルゴリズムを使用して非負値行列因子分解を実行します。

多次元尺度構成法

多次元尺度構成法
多次元尺度構成法では、多くの種類の距離または非類似度の尺度について点と点の近さを可視化し、データを低次元で表現することができます。
古典的多次元尺度構成法
cmdscale を使用して古典的 (計量) 多次元尺度構成法 (別名「主座標分析」) を実施します。
非空間的距離に適用した古典的多次元尺度構成法
この例では、Statistics and Machine Learning Toolbox™ の関数 cmdscale を使用して古典的多次元尺度構成法 (MDS) を実行する方法を示します。
非古典的多次元尺度構成法
この例では、多次元尺度構成法 (MDS) の非古典的な形式を使用してデータの相違性を可視化する方法を示します。
非古典的および非計量多次元尺度構成法
mdscale を使用して非古典的多次元尺度構成法を実行します。

プロクラステス解析

プロクラステス解析の使用による手書き形状の比較
プロクラステス解析を使用して 2 つの手書きの数字を比較します。

注目の例

高次元のデータを分類する特徴量の選択

この例では、高次元データを分類するための特徴量を選択する方法を示します。具体的には、最も一般的な特徴選択アルゴリズムのひとつである逐次特徴選択を実行する方法を示します。ホールドアウトと交差検証を使用して、選択した特徴量の性能を評価する方法についても示します。

ライブスクリプトを開く

部分最小二乗回帰と主成分回帰

部分最小二乗回帰 (PLSR) と主成分回帰 (PCR) を適用し、これら 2 つの手法の有効性を確認する。

ライブスクリプトを開く

主成分分析を使用した直交回帰の近似

この例では、主成分分析 (PCA) により線形回帰を近似する方法を示します。PCA は、データから近似モデルまでの垂直距離を最小化します。この分析は、直交回帰、全最小二乗、デミング回帰、変数誤差などと呼ばれるものの線形バージョンであり、予測子変数と応答変数の間に自然な区分がない場合、またはすべての変数が誤差を含んで測定される場合に適しています。これは、予測子変数が正確に測定され、応答変数のみが誤差成分をもつ、通常の回帰仮定とは対照的なものです。

ライブスクリプトを開く

次元削減と特徴抽出

ライブ エディター タスク

関数

特徴選択

特徴抽出

t-SNE 多次元可視化

PCA と正準相関

因子分析

非負値行列因子分解

多次元尺度構成法

プロクラステス解析

オブジェクト

特徴選択

特徴抽出

トピック

特徴選択

特徴抽出

t-SNE 多次元可視化

PCA と正準相関

因子分析

非負値行列因子分解

多次元尺度構成法

プロクラステス解析

注目の例

高次元のデータを分類する特徴量の選択

部分最小二乗回帰と主成分回帰

主成分分析を使用した直交回帰の近似

ライブエディタータスク