相関比を最大にすることによる判別係数の求め方
Last modified: Nov 10, 2005
- 群の数を $k$,各群のケース数を $n_1, n_2, \dots , n_k$ とする。
- $p$ 個の変数を $X_{1}, X_{2}, \dots , X_{p}$ として,任意の重み係数 $a_{1}, a_{2}, \dots , a_{p}$ を用いて作られる合成変量を $Z$ とする。
\[
Z = a_1\ X_1 + a_2\ X_2 + \dots + a_p\ X_p
\]
- 第 $j$ 群,第 $i$ ケースの合成変量を $Z_{ij}\ ( j = 1, 2, \dots , k;\ i = 1, 2, \dots , n_j)$ とする。
\[
Z_{ij} = a_1\ X_{1ij} + a_2\ X_{2ij} + \dots + a_p\ X_{pij}
\]
- 全体の平均値を $\bar{Z}$,第 $j$ 群における平均値を $\bar{Z}_j$ とすれば,$Z$ の平方和 $\mathbf{S}_{t}$ は 群内平方和 $\mathbf{S}_{w}$ と群間平方和 $\mathbf{S}_{b}$ に分解できる。
\[
\mathbf{S}_t = \mathbf{S}_w+\mathbf{S}_b
\]
\[
\sum_{j=1}^k\sum_{i=1}^{n_j} \left(Z_{ij}-\bar{Z}\right)^2 = \sum_{j=1}^k\sum_{i=1}^{n_j} \left(Z_{ij}-\bar{Z}_j\right)^2 + \sum_{j=1}^k \left(\bar{Z}_j-\bar{Z}\right)^2
\]
- $Z$ により各群がよく判別できるということは,相関比 $\eta^{2} = \displaystyle \frac{S_{b}}{S_{t}}$ が大きいということに対応するので( あるいは,$\displaystyle \frac{S_{b}}{S_{w}}$ の比が大きいことに対応すると考えてもよい ),
相関比 が最大になるように重み係数 $a_{1}, a_{2}, \dots , a_{p}$ を決定すればよい。これを,判別係数と呼ぶ。
- $l$ 群の $m$ 番目のケースの $i$ 番目の変数の測定値を
$X_{iml}$,$l$ 群の $i$ 番目の変数の平均値を $\bar{X}_{il}$,$i$ 番目の変数の全体の平均値を $\bar{X}_i$ としたとき,観察値の群内および群間平方和・積和行列の要素を,
\[
W_{ij} = \sum_{l=1}^k \sum_{m=1}^{n_l} \left(X_{iml}-\bar{X}_{il}\right)\ \left(X_{jml}-\bar{X}_{jl}\right),\ \ \ \ \ \mathbf{W} = \left(W_{ij}\right)
\]
\[
B_{ij} = \sum_{l=1}^k n_l \left(\bar{X}_{il}-\bar{X}_{i}\right)\ \left(\bar{X}_{jl}-\bar{X}_{j}\right),\ \ \ \ \ \mathbf{B} = \left(B_{ij}\right)
\]
とすると,
\[
\theta = \frac{\mathbf{S}_b}{\mathbf{S}_w} = \frac{\displaystyle \sum_{i=1}^p \sum_{j=1}^p a_i\ a_j\ B_{ij}} {\displaystyle \sum_{i=1}^p \sum_{j=1}^p a_i\ a_j\ W_{ij}} \rightarrow \text{最大化} \tag{1}
\]
- $(1)$ 式を,$a_{i}$ で偏微分して $0$ とおき行列を用いて表すと,$(2)$ 式のようになる。これは,一般化固有値問題である。
\[
\left(\mathbf{B}-\theta\ \mathbf{W}\right)\ \mathbf{a} = 0 \tag{2}
\]
- $(4)$ を満たす固有値($\lambda_i,\ i=1, 2, \dots, m$)は複数個( $m = \min( p, k - 1 )$ 個 )存在するが,$(1)$ 式を最大にするのはその内の最大の固有値である。また,係数ベクトル $\mathbf{a}$ はその固有値に対応する固有ベクトルである。
- $2$ 番目以降に大きい固有値とその固有ベクトルも判別関数を構成することができる。
- それぞれの判別関数の寄与率は $(5)$ 式のようになり,$m$ より少ない
判別関数で十分な判別を行うことができる。すなわち,次元の減少を伴う判別であるといわれる(正準判別分析)。
\[
\text{寄与率} = \displaystyle \frac{\lambda_i}{\displaystyle \sum_{j=1}^m \lambda_i} \tag{5}
\]
注:二群の判別の場合には,次ページ後半に示すように計算は簡単になる。
演習問題:
応用問題:
次のページへ進む
判別分析の最初のページへ戻る
E-mail to Shigenobu AOKI