主成分分析 (PCA)

多変量統計に固有の問題は、多くの変数をもつデータを可視化できないという点にあります。関数 plot は、2 つの変数の関係のグラフを表示します。plot3 や surf コマンドは、3 次元での別の表示をします。しかし、3 つ以上の変数があるとき、変数の関係を可視化することは、さらに困難です。

データセットに多数の変数が含まれていて、変数のグループが一緒に動く場合があります。この理由として、システムの動きを支配している同じ原則を、複数の変数が観測している、ということが考えられます。多くのシステムにおいて、このようなシステムの動きに影響を与えるものは 2、3 しかありません。しかしインストルメンテーション手段が豊富であるために、多くのシステム変数を測定してしまうことになります。このようなことが起きる場合は、情報の重複を利用することができます。新しい 1 つの変数を使って変数グループを置き換えると、問題を単純化することができます。

主成分分析は、上記の単純化を実行するための量的に正確な方法です。この方法では、"主成分" と呼ばれる新しい変数群を出力します。各主成分は、元の変数との線形結合です。すべての主成分は互いに直交しているので、余分な情報はありません。主成分は全体として、データ空間の直交基底を作ります。

数列のデータの直交基底を作るには、無限の方法があります。主成分の基底について、特別なものには何があるでしょうか。

第 1 主成分は、空間での 1 つの軸です。各観測をこの軸上に射影したとき、結果の値は 1 つの新しい変数を形成します。この値の分散は、最初の軸を決定するときに最大量を選択します。

第 2 主成分は、空間内の別の軸で、第 1 主成分に直交します。この軸に観測を射影すると、新しい変数を発生します。この変数の分散は、この 2 番目の軸を決定する場合に、最大量を選択します。

主成分の数は、元の変数の数と同じです。最初の 2、3 個の主成分の分散の和が、元のデータの分散の合計の 80% を超えることはよくあることです。これらの 2、3 個の新しい変数を確認することで、元のデータを発生させた影響について、より理解が深くなる可能性があります。

関数 pca は、主成分を見つけるために使用されます。pca を使用するには、解析する実際の測定データが必要です。しかし、実際のデータがなく、データの標本共分散または相関行列がある場合は、関数 pcacov を使用して、主成分分析を実行できます。その入力と出力の説明は、pcacov に対するリファレンスページを参照してください。

データストリームからの入力データを処理する必要がある場合、関数 incrementalPCA を使用してインクリメンタル PCA モデルオブジェクトを作成することでインクリメンタル PCA を実行できます。モデルオブジェクトを作成するときは、既定のモデルを指定することも、主成分の初期の係数と分散を指定することもできます。関数 fit は、入力データチャンクにモデルを当てはめ、更新された PCA のプロパティを出力モデルに格納します。モデルがウォームになった後、関数 fit はオプションで主成分のスコアを返すことができます。関数 transform は、入力データチャンクを受け入れ、それをインクリメンタル PCA モデルを使用して変換します。

参考

pca | pcacov | pcares | ppca | incrementalPCA

トピック

PCA の使用による米国の都市における生活満足度の分析