主成分分析 (PCA)
多変量統計に固有の問題は、多くの変数をもつデータを可視化できないという点にあります。関数 plot
は、2 つの変数の関係のグラフを表示します。plot3
や surf
コマンドは、3 次元での別の表示をします。しかし、3 つ以上の変数があるとき、変数の関係を可視化することは、さらに困難です。
データ セットに多数の変数が含まれていて、変数のグループが一緒に動く場合があります。この理由として、システムの動きを支配している同じ原則を、複数の変数が観測している、ということが考えられます。多くのシステムにおいて、このようなシステムの動きに影響を与えるものは 2、3 しかありません。しかしインストルメンテーション手段が豊富であるために、多くのシステム変数を測定してしまうことになります。このようなことが起きる場合は、情報の重複を利用することができます。新しい 1 つの変数を使って変数グループを置き換えると、問題を単純化することができます。
主成分分析は、上記の単純化を実行するための量的に正確な方法です。この方法では、"主成分" と呼ばれる新しい変数群を出力します。各主成分は、元の変数との線形結合です。すべての主成分は互いに直交しているので、余分な情報はありません。主成分は全体として、データ空間の直交基底を作ります。
数列のデータの直交基底を作るには、無限の方法があります。主成分の基底について、特別なものには何があるでしょうか。
第 1 主成分は、空間での 1 つの軸です。各観測をこの軸上に射影したとき、結果の値は 1 つの新しい変数を形成します。この値の分散は、最初の軸を決定するときに最大量を選択します。
第 2 主成分は、空間内の別の軸で、第 1 主成分に直交します。この軸に観測を射影すると、新しい変数を発生します。この変数の分散は、この 2 番目の軸を決定する場合に、最大量を選択します。
主成分の数は、元の変数の数と同じです。最初の 2、3 個の主成分の分散の和が、元のデータの分散の合計の 80% を超えることはよくあることです。これらの 2、3 個の新しい変数を確認することで、元のデータを発生させた影響について、より理解が深くなる可能性があります。
関数 pca
は、主成分を見つけるために使用されます。pca
を使用するには、解析する実際の測定データが必要です。しかし、実際のデータがなく、データの標本共分散または相関行列がある場合は、関数 pcacov
を使用して、主成分分析を実行できます。その入力と出力の説明は、pcacov
に対するリファレンス ページを参照してください。
データ ストリームからの入力データを処理する必要がある場合、関数 incrementalPCA
を使用してインクリメンタル PCA モデル オブジェクトを作成することでインクリメンタル PCA を実行できます。モデル オブジェクトを作成するときは、既定のモデルを指定することも、主成分の初期の係数と分散を指定することもできます。関数 fit
は、入力データ チャンクにモデルを当てはめ、更新された PCA のプロパティを出力モデルに格納します。モデルがウォームになった後、関数 fit
はオプションで主成分のスコアを返すことができます。関数 transform
は、入力データ チャンクを受け入れ、それをインクリメンタル PCA モデルを使用して変換します。
参考
pca
| pcacov
| pcares
| ppca
| incrementalPCA