主成分分析の目的は,なるべく少ない合成変数で,なるべく多くの情報を把握するという 情報の縮約 である。
標準化された 2 変数 $x_{1}$,$x_{2}$ を考えたとき,図 1 のように座標軸 $x_{1}$,$x_{2}$ で表されるものを,座標軸 $f_{1}$,$f_{2}$ で表すことを考える。
図 1.主成分分析とは何か |
---|
これは座標軸の回転であり,回転角 $\theta$ = 45 度としたとき,
\[ \left ( \begin{array}{c} f_1 \\ f_2 \end{array} \right ) = \left ( \begin{array}{rr} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{array} \right ) \left ( \begin{array}{c} x_1 \\ x_2 \end{array} \right ) \] すなわち,
\[ \left \{ \begin{align*} f_1 &= x_1 \cos \theta + x_2 \sin \theta = \frac{x_1+x_2}{\sqrt{2}} \\ f_2 &= -x_1 \sin \theta + x_2 \cos \theta = \frac{-x_1+x_2}{\sqrt{2}} \end{align*} \right . \] である。
$f_{1}$ は最も分散( 情報量 )の大きい軸,$f_{2}$ は $f_{1}$ と直交して,次に分散の大きい軸である。$f_{1}$ は $x_{1}$,$x_{2}$ と最も相関が高い。
$f_{2}$ は $f_{1}$ とは全く別の基準である。つまり,$f_{1}$ と $f_{2}$ が直交するということは,$f_{1}$ と $f_{2}$ は無相関であることを意味する。
もし,$f_{1}$ の分散が $f_{2}$ の分散に比べて大きければ,$f_{1}$ だけで評価することができる。すなわち,元の 2 変数を“同時に”考慮する代わりに,1 個の合成変数“だけ”を考えればよいことになる。
変数が 3 個以上の場合も同様に考えることができる。元の変数が $p$ 個ある場合も,$m \lt p$ であるような少数個の合成変数を考えればよい。
ここで重要なのは,考慮すべき変数の個数が少なくなることだけではなく,各合成変数間の相関が 0 であることから,“個々の合成変数を独立に評価してよい”ということである(逆にいえば,変数間に相関がある限り,各変数を個別に評価することは“できない”ということである)。
演習問題:
応用問題: