数量化 II 類     Last modified: Nov 07, 2002

 カテゴリーデータを説明変数として群を判別する。

 ダミー変数を用いる判別分析と等価な解析手法である(解説)。


 説明変数 $X_{i}\ ( i = 1, 2, \dots , p )$ が,それぞれ $m_{i}$ 個の選択肢を持つ( このような変数を特にアイテム変数と呼ぼう )。

 各選択肢が選ばれたら 1,選ばれなかったら 0 をとるような $\sum m_{i}$ 個の変数 $C_{ij}\ ( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i})$ を定義する。

 ここで,各カテゴリーに特定の数値 $a_{ij}\ ( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i})$ を割当て,$S = \sum \sum a_{ij} C_{ij}$ というサンプルスコア( 判別値 )を計算して各ケースがどの群に属するかを判別しようと考える。

 表 1 に示した例においてみてみると,例えば 1 番目のケースの判別をするために $a_{11} + a_{22} + a_{32}$ を使用するわけである。

表 1.カテゴリー変数で群の判別を行う
従属変数
(群変数)
説明変数(カテゴリー変数)
$X_{1}$ $X_{2}$ $X_{3}$
$Y_{1}$ $Y_{2}$ $Y_{3}$ $C_{11}$ $C_{12}$ $C_{13}$ $C_{21}$ $C_{22}$ $C_{23}$ $C_{24}$ $C_{31}$ $C_{32}$
1 0 0 1 0 0 0 1 0 0 0 1
0 1 0 0 1 0 1 0 0 0 1 0
1 0 0 1 0 0 0 0 1 0 1 0
0 0 1 0 0 1 0 0 0 1 0 1
カテゴリーに
与えられる数値
$a_{11}$ $a_{12}$ $a_{13}$ $a_{21}$ $a_{22}$ $a_{23}$ $a_{24}$ $a_{31}$ $a_{32}$

 各カテゴリーにどのような数値を与えたらよいかは,$C_{ij}$ を独立変数として以下のような判別式を求めることに帰着できる。

\[ \begin{align*} S =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{21}\ C_{21} + a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{31}\ C_{31} + a_{32}\ C_{32} \end{align*} \]  ただし,各説明変数において情報が冗長であるので,各説明変数から 1 個ずつカテゴリーを消去した判別分析を行う( 例えば, $C_{11}$ と $C_{12}$ が 0 なら $C_{13}$ が 1 であることはただちにわかる )。

\[ \begin{align*} S =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{32}\ C_{32} \end{align*} \]  なお,以上で求めた各カテゴリーに与える数値は,各説明変数ごとに平均値がゼロになるように正規化されて利用される。

補足説明

  1. 連続変数をカテゴリー化して用いる場合には,カテゴリー数が少なすぎないようにしなければならない(多すぎても困る)。また,カテゴリー化は妥当な分割点で行ったほうがよい(例えば 2 峰性データならその中点,正常範囲が決っているならその前後など)。

  2. 得られた判別関数は,分析に使用したケースについて最適のものであるが,別のケース群に適用しても有用であるかどうかはわからない。例えば,ある医療機関に受療した患者に適用できても,別の医療機関の受療患者には適用できないかもしれない。得られた判別関数が他の集団でも有用であるかどうか(交差妥当性を持つかどうか)について検討したほうがよい。

  3. 交差妥当性を検証するのはなかなかたいへんな場合がある。そのため,便法として折半法と呼ばれる方法がある。この方法は,既存のケースを無作為に半分ずつに分け,一方のケースを用いて判別関数を作り,もう一方のケースを得られた判別関数で判別し正判別率を検討するものである。折半法を用いるには,既存のケース数がある程度多くなければならない。


演習問題

 「表 2 のようなデータにおいて,変数 $x_{1}$ ,$x_{2}$ を用いて 群を予測しなさい」

表 2.数量化 II 類による分析に使うデータ例
ケース番号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
$x_{1}$ 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3
$x_{2}$ 1 2 2 2 3 1 1 1 2 3 3 1 2 3 3
 1  1  1  1  1  1  1  2  2  1  2  2  2  2  2

・ 解答例


応用問題

 「上の演習問題を,ダミー変数を使用した判別分析を用いて分析しなさい。」

・ 解答例


・ 計算プログラム [CGI(C)] [R] [Python]
・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI