「統計学関連なんでもあり」の過去ログ--- 043

No.11862　重回帰分析のダミー変数の作り方　　【てんぽ】　2010/01/27(Wed) 21:16

統計初心者です。重回帰分析について質問があります。
説明変数がある年齢や性別，とある分類（A型，B型，C型，D型，E型）の場合に，分類をダミー変数化して分析したいと思っています。
その際の方法なのですが，
A型を基準として
　　　A　（0000）
　　　B　（1000）
　　　C　（0100）
　　　D　（0010）
　　　E　（0001）
とした場合，B～E型のそれぞれの従属変数に対するp値は出ますが，A型については求められず，A型が有意な説明変数か否かが分かりません。
（例えばE型を基準とした場合にA型が有意な説明変数となるかもしれません）
そこでダミー変数を作る際の基準をどれにするかはどのように決めるべきなのでしょうか？
ご教示お願いします。

No.11863　Re: 重回帰分析のダミー変数の作り方　　【青木繁伸】　2010/01/27(Wed) 21:25

本質的にはどれをベースラインにしても同じ解釈になるべきものですから，要するに相対的になるわけですから，解釈する際にベースラインとすると都合の良いものをベースラインにするわけです。順序尺度変数なら一番下位のカテゴリーをベースラインにすると言うことになるでしょう。名義尺度変数の場合にも，研究対象によってどれをベースラインにすると都合がよいかは決定できるのではないでしょうか（例えば，職業と年収など（無意味な例ですが）の場合には，無職をベースラインにするなど）。

No.11905　Re: 重回帰分析のダミー変数の作り方　　【てんぽ】　2010/01/31(Sun) 17:17

基準はもっともベースとなるもので良いんですね。
相関を調べたり，平均を比較したりしないといけないかと思っていました。
どうもありがとうございました。

No.11926　Re: 重回帰分析のダミー変数の作り方　　【てんぽ】　2010/02/02(Tue) 12:49

先日ご返答いただいて以来，統計処理をしていますが，重回帰分析について分からないことがあります。
ダミー変数を使って重回帰分析をすると，分類の各型（B型やD型）と従属変数との回帰係数やp値が求まります。それは各型が従属変数にどう影響を及ぼすのかを見ていると思っています。ただ，本来求めたいものはその分類が従属変数にとって意味があるかどうかで，分類全体と従属変数との関係が知りたいと思っています。
そのようなときに重回帰分析では無理なのでしょうか？また，他の多変量解析などで可能であれば教えて頂きたいと思います。
初歩的な質問で申し訳ありませんが，よろしくお願いします。

No.11928　Re: 重回帰分析のダミー変数の作り方　　【青木繁伸】　2010/02/02(Tue) 16:35

ダミー変数を使う意味を考えるとよいと思います。
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
の後半，外的基準と曲線相関を示す順序尺度変数の数量化の項を参照。

独立変数 x が 3 個のカテゴリーを持つ（例えば，x は値として 1, 2, 3 をとる）とき，2 つのダミー変数 x1, x2 を考えます。
y ~ x1+x2 という回帰モデルで，x1, x2 の偏回帰係数が w1, w2 になったとします。つまり，予測値は y = w1*x1+w2*x2+constant で求まります。これは，元の x がとっていた数値 1, 2, 3 のかわりに 0, w1, w2 という数値を与えたとき（変数 z とする），y = 1*z+constant というのと同じですね（数値と係数の役割を入れ替えたということ）。予測に使う z は y と線形関係にあります。そして，ダミー変数のときには 2 つの変数に分けて考えていたものが 1 つの変数になりました。x1, x2 を総合して評価するには，z の偏回帰係数 1 に対する P 値を見ればよいでしょう。以下のようなデータがあったとする。
      y x x1 x2 v
1  46.0 1  0  0 2
2  28.1 2  1  0 1
3  36.7 3  0  1 3
4  20.6 1  0  0 2
5  13.0 2  1  0 4
6  43.2 3  0  1 3
7   9.1 1  0  0 6
8  29.1 2  1  0 5
9  39.3 3  0  1 4
10  9.7 1  0  0 3
11 24.4 2  1  0 5
12 33.0 3  0  1 4
13 39.2 1  0  0 1
14 21.4 2  1  0 2
15 26.7 3  0  1 3
x は 3 カテゴリーをもつカテゴリー変数で，x1, x2 の 2 つのダミー変数で表現できる。v は連続変数。x1, x2, v で y を予測すると，
> ans <- lm(y ~ x+v, d)
> summary(ans)

Call:
lm(formula = y ~ x + v, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.5622  -6.6779  -0.8066   6.2834  18.4488 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  34.1293     7.0258   4.858 0.000505 ***
x2            0.2534     6.5912   0.038 0.970019    
x3           12.8334     6.5912   1.947 0.077507 .  
v            -3.2890     1.8996  -1.731 0.111279    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 10.26 on 11 degrees of freedom
Multiple R-squared: 0.4026,	Adjusted R-squared: 0.2397 
F-statistic: 2.471 on 3 and 11 DF,  p-value: 0.1163 
x がとる値 1, 2, 3, を x2, x3 に対する偏回帰係数の値で数量化すると，x=1, 2, 3 のとき z=0, 0.2534, 12.8334 とすればよい。以下のようなデータになる。
      y          z v
1  46.0  0.0000000 2
2  28.1  0.2534247 1
3  36.7 12.8334247 3
4  20.6  0.0000000 2
5  13.0  0.2534247 4
6  43.2 12.8334247 3
7   9.1  0.0000000 6
8  29.1  0.2534247 5
9  39.3 12.8334247 4
10  9.7  0.0000000 3
11 24.4  0.2534247 5
12 33.0 12.8334247 4
13 39.2  0.0000000 1
14 21.4  0.2534247 2
15 26.7 12.8334247 3
このデータにおいて，z と v で y を予測する。
> d$z <- c(0, coefficients(ans)[2:3])
> ans2 <- lm(y ~ z+v, d)
> summary(ans2)

Call:
lm(formula = y ~ z + v, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.5622  -6.6779  -0.8066   6.2834  18.4488 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  34.1293     6.3708   5.357 0.000172 ***
z             1.0000     0.4258   2.349 0.036809 *  
v            -3.2890     1.7918  -1.836 0.091312 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.828 on 12 degrees of freedom
Multiple R-squared: 0.4026,	Adjusted R-squared: 0.3031 
F-statistic: 4.044 on 2 and 12 DF,  p-value: 0.04545 
x は名義尺度変数なのでそのままでは，重回帰分析には使えない。そのためダミー変数にして使用する。z はダミー変数を使った重回帰分析に基づいて数量化された変数なので，重回帰分析に使える。そして，その有用性は P 値を見ればわかる。
なお，x1, x2, v を使った場合と z, v を使った場合での予測値は当然ながら，同じ値になる（決定係数は同じである）。
> cbind(d$y, fitted.values(ans), fitted.values(ans2), fitted.values(ans)-fitted.values(ans2))
   [,1]     [,2]     [,3]          [,4]
1  46.0 27.55123 27.55123  3.552714e-15
2  28.1 31.09370 31.09370 -3.552714e-15
3  36.7 37.09562 37.09562 -7.105427e-15
4  20.6 27.55123 27.55123  3.552714e-15
5  13.0 21.22658 21.22658  0.000000e+00
6  43.2 37.09562 37.09562  0.000000e+00
7   9.1 14.39507 14.39507  1.776357e-15
8  29.1 17.93753 17.93753  0.000000e+00
9  39.3 33.80658 33.80658  0.000000e+00
10  9.7 24.26219 24.26219  3.552714e-15
11 24.4 17.93753 17.93753 -3.552714e-15
12 33.0 33.80658 33.80658  0.000000e+00
13 39.2 30.84027 30.84027  0.000000e+00
14 21.4 27.80466 27.80466  0.000000e+00
15 26.7 37.09562 37.09562  7.105427e-15

No.11937　Re: 重回帰分析のダミー変数の作り方　　【てんぽ】　2010/02/03(Wed) 12:00

なるほど，偏回帰係数の値で数量化すればよいんですね。
実際やってみて，無事もとめることが出来ました。
どうもありがとうございました。