カテゴリーデータを説明変数として群を判別する。
説明変数 $X_{i}\ ( i = 1, 2, \dots , p )$ が,それぞれ $m_{i}$ 個の選択肢を持つ( このような変数を特にアイテム変数と呼ぼう )。
各選択肢が選ばれたら 1,選ばれなかったら 0 をとるような $\sum m_{i}$ 個の変数 $C_{ij}\ ( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i})$ を定義する。
ここで,各カテゴリーに特定の数値 $a_{ij}\ ( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i})$ を割当て,$S = \sum \sum a_{ij} C_{ij}$ というサンプルスコア( 判別値 )を計算して各ケースがどの群に属するかを判別しようと考える。
表 1 に示した例においてみてみると,例えば 1 番目のケースの判別をするために $a_{11} + a_{22} + a_{32}$ を使用するわけである。
従属変数 (群変数) | 説明変数(カテゴリー変数) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
$X_{1}$ | $X_{2}$ | $X_{3}$ | ||||||||||||
$Y_{1}$ | $Y_{2}$ | $Y_{3}$ | $C_{11}$ | $C_{12}$ | $C_{13}$ | $C_{21}$ | $C_{22}$ | $C_{23}$ | $C_{24}$ | $C_{31}$ | $C_{32}$ | |||
1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | |||
0 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | |||
1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | |||
0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | |||
: | ||||||||||||||
カテゴリーに 与えられる数値 | $a_{11}$ | $a_{12}$ | $a_{13}$ | $a_{21}$ | $a_{22}$ | $a_{23}$ | $a_{24}$ | $a_{31}$ | $a_{32}$ |
各カテゴリーにどのような数値を与えたらよいかは,$C_{ij}$ を独立変数として以下のような判別式を求めることに帰着できる。
\[ \begin{align*} S =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{21}\ C_{21} + a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{31}\ C_{31} + a_{32}\ C_{32} \end{align*} \] ただし,各説明変数において情報が冗長であるので,各説明変数から 1 個ずつカテゴリーを消去した判別分析を行う( 例えば, $C_{11}$ と $C_{12}$ が 0 なら $C_{13}$ が 1 であることはただちにわかる )。
\[ \begin{align*} S =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{32}\ C_{32} \end{align*} \] なお,以上で求めた各カテゴリーに与える数値は,各説明変数ごとに平均値がゼロになるように正規化されて利用される。
補足説明
演習問題:
「表 2 のようなデータにおいて,変数 $x_{1}$ ,$x_{2}$ を用いて 群を予測しなさい」
ケース番号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
$x_{1}$ | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 |
$x_{2}$ | 1 | 2 | 2 | 2 | 3 | 1 | 1 | 1 | 2 | 3 | 3 | 1 | 2 | 3 | 3 |
群 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 1 | 2 | 2 | 2 | 2 | 2 |
応用問題:
「上の演習問題を,ダミー変数を使用した判別分析を用いて分析しなさい。」