連続変数である従属変数を予測する。
ダミー変数を用いる重回帰分析と等価な解析手法である(解説)。
説明変数 $X_{i}\ ( i = 1, 2, \dots , p )$ が,それぞれ $m_{i}$ 個の選択肢を持つ( このような変数を特にアイテム変数と呼ぼう )。各選択肢が選ばれたら 1,選ばれなかったら 0 をとるような $\sum m_{i}$ 個の変数 $C_{ij}\ ( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i} )$ を定義する。
ここで,各カテゴリーに特定の数値 $a_{ij}( i = 1, 2, \dots , p;\ j = 1, 2, \dots , m_{i} )$ を 割当て,$\hat{Y} = \sum \sum a_{ij} C_{ij}$ で従属変数 $Y$ を予測しようと考える。
従属変数 (連続変数) | 説明変数(カテゴリー変数) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
$X_{1}$ | $X_{2}$ | $X_{3}$ | ||||||||||
$Y$ | $C_{11}$ | $C_{12}$ | $C_{13}$ | $C_{21}$ | $C_{22}$ | $C_{23}$ | $C_{24}$ | $C_{31}$ | $C_{32}$ | |||
31.3 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | |||
25.1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | |||
34.7 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | |||
29.6 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | |||
: | ||||||||||||
カテゴリーに 与えられる数値 | $a_{11}$ | $a_{12}$ | $a_{13}$ | $a_{21}$ | $a_{22}$ | $a_{23}$ | $a_{24}$ | $a_{31}$ | $a_{32}$ |
表 1 に示した例においてみてみると,例えば 1 番目のケースの従属変数の観察値 31.3 の予測値として $a_{11} + a_{22} + a_{32}$ を使用するわけである。
各カテゴリーにどのような数値を与えたらよいかは,$C_{ij}$ を独立変数として以下のような重回帰式を求めることに帰着できる。
\[ \begin{align*} \hat{Y} =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{21}\ C_{21} + a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{31}\ C_{31} + a_{32}\ C_{32} \end{align*} \] ただし,各説明変数において情報が冗長である( 例えば,$C_{11}$ と $C_{12}$ が 0 なら $C_{13}$ が 1 であることはただちにわかる )ので,2 番目以降の各説明変数から 1 個ずつカテゴリーを消去して解を求める(ダミー変数を用いて重回帰分析を行うときには,各説明変数から 1 個ずつカテゴリーを消去して分析を行う)。
\[ \begin{align*} \hat{Y} =& a_{11}\ C_{11} + a_{12}\ C_{12} + a_{13}\ C_{13} \\[5pt] {}+& a_{22}\ C_{22} + a_{23}\ C_{23} + a_{24}\ C_{24} \\[5pt] {}+& a_{32}\ C_{32} \end{align*} \] なお,以上で求めた各カテゴリーに与える数値は,各説明変数ごとに平均値がゼロになるように正規化されて利用される。
補足説明
演習問題:
「表 2 のようなデータにおいて,変数 $x_{1}$ ,$x_{2}$ を用いて 変数 $y$ を予測しなさい」
ケース番号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
$x_{1}$ | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 |
$x_{2}$ | 1 | 2 | 2 | 2 | 3 | 1 | 1 | 1 | 2 | 3 | 3 | 1 | 2 | 3 | 3 |
$y$ | 9.3 | 7.6 | 11.9 | 12.4 | 14.7 | 17.7 | 10.4 | 19.8 | 21.1 | 15.0 | 20.5 | 23.6 | 27.4 | 31.2 | 33.4 |
応用問題:
「上の演習問題を,ダミー変数を使用した重回帰分析を用いて分析しなさい。」