変数選択を行わない場合には,独立変数相互間に相関の高いものは含めないほうがよい。
もし,それらの中に独立でないものが含まれていると( 例えば変数 $A$,$B$ とその合計値 $C = A + B$ が共に含まれていると )分析は失敗する。
場合によっては,各独立変数と従属変数との相関係数の符号と,偏回帰係数の符号が一致しない場合が生ずる。これは,「予測を行う」という観点から偏回帰係数が定められるので,重回帰式に含まれた変数相互間の関連で符号が決められるためである。このようなことが起きるのは,独立変数間に相関の高いものが混ざっていることが原因である( ある変数で予測しすぎた部分を別の変数で打消しているような場合がある )。しかし,このようなことは因果関係を考える上では不都合なので,符号が一致しない独立変数を除いた重回帰式を探索するとよいであろう。
独立変数間の相関係数行列の逆行列の要素を $r^{ii}$ としたとき, \[ R = \sqrt{1-\frac{1}{r^{ii}}} \] は,独立変数 $X_i$ を残りの独立変数で予測するときの重相関係数になっている。したがって,この数値が大きいものは独立変数としてふさわしくないことを表す。
これと同じことであるが $\displaystyle \frac{1}{r^{ii}}$ をトレランス,$r^{ii}$ を分散拡大係数(VIF; Variance Infration Factor)と呼ぶことがある。この場合には,トレランスが低い( 分散拡大係数が大きい )独立変数は除く方がよいことを表す。
演習問題:
前のページに引き続き,トレランスと VIF を求めよ。 答え
応用問題: