No.14940 重回帰分析の独立変数(ダミー変数の選択)  【カメヒト】 2011/07/09(Sat) 21:02

SPSSで重回帰分析をしようとしています。
独立変数で,たとえば職種(カテゴリー)を Job1,Job2,Job3,Job4の4つに分けている場合,(Job1,Job2,Job3,Job4)に(1,2,3,4)と割り当てているデー タをダミー変数を用いて,Job1は(1,0,0,0),Job2は(0,1,0,0),Job3は(0,0,1,0,),Job4は(0,0,0,1) といったようにするかと思います。
そして,この4つのうち一つの変数を除いて,たとえばJob1を除いて,残りのJob2,Job3,Job4の3つを投入するといったやり方をするかと思います。
ここで,Job1,Job2,Job3,Job4の内のどの変数一つを除くかによって結果が変わってきますので,どの変数を除けばよいか悩んでしまいます。
このような際,どの変数を除けばよいのかお教え願います。よろしくお願いいたします。

No.14941 Re: 重回帰分析の独立変数(ダミー変数の選択)  【青木繁伸】 2011/07/09(Sat) 21:12

> ここで,Job1,Job2,Job3,Job4の内のどの変数一つを除くかによって結果が変わってきますので,どの変数を除けばよいか悩んでしまいます。

確かに得られる偏回帰係数の値は異なりますが,どの回帰式でも決定係数,回帰の分散分析,予測値などは全く同じです。
除 かれたダミー変数の偏回帰係数は結果出力の中には出てきませんが,0 という値を持つのです(0 だから出力しても意味がないから出力しないだけ)。除かれたダミー変数を基準として,他のダミー変数がそれに比べて幾つ大きいか小さいかというのが他のダ ミー変数の偏回帰係数ですよ。除かれたダミー変数の0という偏回帰係数も含めて,例えば 1 を加えてみましょう。全部に 1 を加えるわけですから,加える前の予測値と同じ予測値になるためには,定数項から 1 を引けばよいことになります。では,どれか別のダミー変数の偏回帰係数が 0 になるようにしてみてください。定数項の調整も忘れずに。そして,別途,そのダミー変数を除いた重回帰分析の結果と比較してみてください。同じになること が分かるでしょう。
つまり,どのダミー変数を除いても(基準にしても),得られる重回帰式は本質的に同じなんです(そうでないと困りますよね)。 結果を解釈する上では,意味的に基準と考えるのが適切なダミー変数を除けばよいでしょう(例えば,天候の晴れ,曇り,雨で,天候がよいほど従属変数が大き くなるような場合には,雨を基準とすれば解釈がしやすいでしょう)。
なお,SPSS はよく分かりませんが,ダミー変数を自分で作らなければならないような統計ソフトは作りが悪いと言わざるを得ないでしょう。
Species は setosa を基準とする
lm(formula = Petal.Length ~ Petal.Width + Species, data = iris)

Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.21140 0.06524 18.568 < 2e-16 ***
Petal.Width 1.01871 0.15224 6.691 4.41e-10 ***
Speciessetosa 0 # 実際には出力されない
Speciesversicolor 1.69779 0.18095 9.383 < 2e-16 ***
Speciesvirginica 2.27669 0.28132 8.093 2.08e-13 ***

Speciessetosa, Speciesversicolor, Speciesvirginica の偏回帰係数から2.27669を引き,定数項に2.27669を足す

Estimate
(Intercept) 1.21140+2.27669 = 3.48809
Petal.Width 1.01871
Speciessetosa 0-2.27669 =-2.27669
Speciesversicolor 1.69779-2.27669 = -0.5789
Speciesvirginica 2.27669-2.27669 = 0

Species は virginica を基準とする
lm(formula = Petal.Length ~ Petal.Width + Species, data = iris)

Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.4881 0.3130 11.143 < 2e-16 ***
Petal.Width 1.0187 0.1522 6.691 4.41e-10 ***
Speciesverginica 0 # 実際には出力されない
Speciesversicolor -0.5789 0.1306 -4.432 1.83e-05 ***
Speciessetosa -2.2767 0.2813 -8.093 2.08e-13 ***

いずれの重回帰分析でも,以下に示されるものは同じ値になる
Residual standard error: 0.3777 on 146 degrees of freedom
Multiple R-squared: 0.9551, Adjusted R-squared: 0.9542
F-statistic: 1036 on 3 and 146 DF, p-value: < 2.2e-16

No.14942 Re: 重回帰分析の独立変数(ダミー変数の選択)  【カメヒト】 2011/07/09(Sat) 21:53

青木先生早速のご回答有り難うございます。
本質的にはどれも同じということ,それから,意味的に基準となるものかどうかということで考えてみます。
もう一つだけ,お答えいただければ有り難いのですが,(本質的に同じなのであれば)たとえば,それぞれに該当する数(占める割合)というのは,一つ除く際に気にしなくてもよいのでしょうね。
たとえば晴れの占める割合と,雨の占める割合が極端に小さくて,曇りの占める割合いが非常に大きいなど(非現実的ですが,たとえばということで)。

No.14943 Re: 重回帰分析の独立変数(ダミー変数の選択)  【青木繁伸】 2011/07/09(Sat) 21:59

> それぞれに該当する数(占める割合)というのは,一つ除く際に気にしなくてもよいのでしょうね,

そういうことです(実際にやってみると納得できるでしょう)。
どれを除くかで結果が違うなんてことになったら,どれを除いた場合に一番結果がよくなるかなんてやらねばならないわけで,そういうことをやりなさいなんて書いてある教科書(サイト)はないでしょう?

No.14944 Re: 重回帰分析の独立変数(ダミー変数の選択)  【カメヒト】 2011/07/09(Sat) 22:05

先生のおっしゃるとおりですね。
有り難うございました。
もう一度先生の記載を見ながら頭の中を整理してみます。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る