主成分とは何か

主成分とは何か　　　　　Last modified: May 16, 2002

　主成分分析の目的は，なるべく少ない合成変数で，なるべく多くの情報を把握するという 情報の縮約 である。

　標準化された 2 変数 $x_{1}$，$x_{2}$ を考えたとき，図 1 のように座標軸 $x_{1}$，$x_{2}$ で表されるものを，座標軸 $f_{1}$，$f_{2}$ で表すことを考える。

図 1．主成分分析とは何か

　これは座標軸の回転であり，回転角 $\theta$ = 45 度としたとき，

\[ \left ( \begin{array}{c} f_1 \\ f_2 \end{array} \right ) = \left ( \begin{array}{rr} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{array} \right ) \left ( \begin{array}{c} x_1 \\ x_2 \end{array} \right ) \] すなわち，

\[ \left \{ \begin{align*} f_1 &= x_1 \cos \theta + x_2 \sin \theta = \frac{x_1+x_2}{\sqrt{2}} \\ f_2 &= -x_1 \sin \theta + x_2 \cos \theta = \frac{-x_1+x_2}{\sqrt{2}} \end{align*} \right . \] である。

　$f_{1}$ は最も分散（情報量）の大きい軸，$f_{2}$ は $f_{1}$ と直交して，次に分散の大きい軸である。$f_{1}$ は $x_{1}$，$x_{2}$ と最も相関が高い。

　$f_{2}$ は $f_{1}$ とは全く別の基準である。つまり，$f_{1}$ と $f_{2}$ が直交するということは，$f_{1}$ と $f_{2}$ は無相関であることを意味する。

　もし，$f_{1}$ の分散が $f_{2}$ の分散に比べて大きければ，$f_{1}$ だけで評価することができる。すなわち，元の 2 変数を“同時に”考慮する代わりに，1 個の合成変数“だけ”を考えればよいことになる。

　変数が 3 個以上の場合も同様に考えることができる。元の変数が $p$ 個ある場合も，$m \lt p$ であるような少数個の合成変数を考えればよい。

　ここで重要なのは，考慮すべき変数の個数が少なくなることだけではなく，各合成変数間の相関が 0 であることから，“個々の合成変数を独立に評価してよい”ということである（逆にいえば，変数間に相関がある限り，各変数を個別に評価することは“できない”ということである）。

演習問題：

応用問題：

次のページへ進む　　

主成分分析の最初のページへ戻る

E-mail to Shigenobu AOKI