「統計学関連なんでもあり」の過去ログ--- 042

No.09144　重回帰分析のダミー変数の使用方法と共線性の解釈　　【UW】　2009/02/06(Fri) 11:28

重回帰分析を用いて，昆虫の多様性指数に影響を与えている原因を明らかにしようとしています。従属変数は多様性指数で，独立変数は昆虫を採取した日（Julian Dateとして表記しています。），昆虫を採取した2つの河川，AとB（ダミー変数を用いてA河川を0としB河川を1としています），それぞれの河川で採取した場所（河川Aでは上流，中流，下流で，それぞれ1,2,3，河川Bでは森林地，植林地，伐採地，それぞれ1,2,3）としています。

データの行列としては

多様性指数 Julian Date 河川 河川A場所 河川B場所
     1.543         210    0         1         0
     1.337         210    0         2         0
     1.211         210    0         3         0
     1.624         320    0         1         0
     1.897         320    0         2         0
     1.210         320    0         3         0
     1.443         210    1         0         1
     1.582         210    1         0         2
     1.633         210    1         0         3
     1.443         320    1         0         1
     1.582         320    1         0         2
     1.633         320    1         0         3

という形にしました（実際は72個のデータがあって，それぞれの採取場所で3回繰り返しが生じています）。
でも，それぞれの河川の採取場所については場所ごとに1,2,3としているのですが，これで良いのかどうか良くわかりません。もしくは，採取場所を1と0だけで表現したほうが良いでしょうか？（そうなると，それぞれの採取場所の列が2列ずつになるかと思います。）

共線性の診断として条件指標の大きいところで，分散の比率が高い独立変数間に共線性の可能性があると本に書かれているのですが，どの程度の値が共線性の可能性に値するのでしょうか？
ちなみにSPSSを使用して得た値は以下のようになっています。

次元 固有値 条件指数 定数 JulianDate 河川A場所 河川B場所 河川
   1  3.500    1.000 0.00       0.00      0.00      0.01 0.00
   2  1.341    1.616 0.00       0.00      0.06      0.02 0.01
   3  0.108    5.690 0.01       0.02      0.28      0.69 0.04
   4  0.043    9.056 0.02       0.06      0.59      0.28 0.90
   5  0.008   21.041 0.97       0.92      0.07      0.00 0.04

上記の表からすると，条件指数が9.056の行の河川A場所.59と河川.90の間に共線性があるのかと疑われますが，どのように解釈するべきなのでしょうか？？もしくは条件指数が5.690の行の河川A場所.28と河川B場所.69の間にも共線性があるのでしょうか？

非常に長くなってしまいましたが，ご教授いただければ幸いです。
統計については初心者で，よくわかっていない部分があり，意味不明な解釈になっているかもしれませんが，よろしくお願いいたします。

No.09147　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【青木繁伸】　2009/02/06(Fri) 13:03

> 採取場所を1と0だけで表現したほうが良いでしょうか？（そうなると，それぞれの採取場所の列が2列ずつになるかと思います。

2列ずつではなく3列ずつになるのでは。つまり，河川A場所なら，カテゴリーは「河川Aではない」，「上流」，「中流」，「下流」の4つですから，それを表現するために必要なダミー変数は3つになります。

> 共線性の診断として条件指標の大きいところで，分散の比率が高い独立変数間に共線性の可能性があると本に書かれているのですが，どの程度の値が共線性の可能性に値するのでしょうか？

堀先生の
http://www.ec.kagawa-u.ac.jp/~hori/spss/spss.html
の中にある
　　多重共線性チェックマクロ
　　多重共線性チェックマクロ2
を使うとよいと思います。

また，VIF を計算してくれるソフトを使うとよいと思います。

No.09152　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【UW】　2009/02/07(Sat) 03:40

迅速なご教授ありがとうございます。
>2列ずつではなく3列ずつになるのでは。つまり，河川A場所なら，カテゴリーは「河川Aではない」，「上流」，「中流」，「下流」の4つですから，それを表現するために必要なダミー変数は3つになります。

上記にある先生のご助言を基に，ダミー変数を用いてそれぞれ3つのカテゴリーを作ってみました。これでSPSSに入力したら，河川Aおよび河川Bの場所が多様性指数に与えている影響が強いかどうかを見ることができるでしょうか？
多様性指数 JulianDate 河川 河川Aではない 上流 中流 河川Bではない 森林 植林地
     1.543        210    0             0    1    0             0    0      0
     1.337        210    0             0    0    1             0    0      0
     1.211        210    0             0    0    0             0    0      0
     1.624        320    0             0    1    0             0    0      0
     1.897        320    0             0    0    1             0    0      0
     1.210        320    0             0    0    0             0    0      0
     1.443        210    1             1    0    0             1    1      0
     1.582        210    1             1    0    0             1    0      1
     1.633        210    1             1    0    0             1    0      0
     1.443        320    1             1    0    0             1    1      0
     1.582        320    1             1    0    0             1    0      1
     1.633        320    1             1    0    0             1    0      0
>VIF を計算してくれるソフトを使うとよいと思います。
確かに，その本（ちなみにSPSSによる多変量データ解析の手順）に許容度の小さい独立変数，またはVIFの大きい独立変数は残りの独立変数との間に線型性がある可能性を持っているので，重回帰分析をするときには除いたほうが良いかみしれません，と書いてあります。確かに，VIFはVIF値＝1/許容度という式から計算されるので，VIFの大きい独立変数もしくは許容度の小さい独立変数に着目する必要があるかもしれません。しかし，それらの値を見て，どう解釈するのかは全くわからない状況です。前回の質問時に記述した重回帰分析の結果にも許容度とVIFの値が掲載されていましたので以下に示します。先生が紹介してくださった堀先生のwebの方法もあるかとは思うのですが，やはり結果として得られた数値の解釈の仕方を知っておく必要があるので，是非ご教授していただければと思います。
             許容度     VIF
JulianDate    1.000    1.000 
河川          0.143    7.000 
河川A場所     0.250    4.000 
河川B場所     0.250    4.000   
どうぞよろしくお願いいたします。

No.09155　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【青木繁伸】　2009/02/07(Sat) 10:56

> これでSPSSに入力したら，河川Aおよび河川Bの場所が多様性指数に与えている影響が強いかどうかを見ることができるでしょうか？

聞かれても，こちらにはデータがないので，回答することができません。
やってご覧になれば，すぐ結果はわかるでしょう。

「許容度」って，「トレランス」だったのですか。

トレランスが0.1以下（VIFが10以上）なら，その変数が多重共線性の原因になっているとするのが慣例だと思います。

No.09156　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【UW】　2009/02/07(Sat) 11:05

早速のご回答，大変ありがとうございました。
出てきた結果である数値については全く判りませんでしたが，今回の質問に対する回答を得られたことで，現在および今後の結果の解釈が容易にできると思います。
この度は，ありがとうございました。

No.09157　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【青木繁伸】　2009/02/07(Sat) 11:08

河川と，河川Aではない，河川Bではないは同じになりますね。確かめてみればよかった。
あなたが最初にやっていたように2つのダミー変数でよいかも。

No.09159　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【UW】　2009/02/07(Sat) 11:32

＞河川と，河川Aではない，河川Bではないは同じになりますね。確かめてみればよかった。
あなたが最初にやっていたように2つのダミー変数でよいかも。

確かに，そうかもしれません。ということは，以下のもので正しいということですか？
多様性指数 JulianDate 河川 A上流 A中流 B森林 B植林地
     1.543        210    0     1     0     0       0
     1.337        210    0     0     1     0       0
     1.211        210    0     0     0     0       0
     1.624        320    0     1     0     0       0
     1.897        320    0     0     1     0       0
     1.210        320    0     0     0     0       0
     1.443        210    1     0     0     1       0
     1.582        210    1     0     0     0       1
     1.633        210    1     0     0     0       0
     1.443        320    1     0     0     1       0
     1.582        320    1     0     0     0       1
     1.633        320    1     0     0     0       0
そして，最初に記述したこれらの変数（河川A場所，河川B場所）の使用法ではやはり意味がないのでしょうか？
多様性指数 JulianDate 河川 河川A場所 河川B場所
     1.543        210    0         1         0
     1.337        210    0         2         0
     1.211        210    0         3         0
     1.624        320    0         1         0
     1.897        320    0         2         0
     1.210        320    0         3         0
     1.443        210    1         0         1
     1.582        210    1         0         2
     1.633        210    1         0         3
     1.443        320    1         0         1
     1.582        320    1         0         2
     1.633        320    1         0         3
振り出しに戻る質問で申し訳ないのですが，よろしくお願いいたします。
上記の二つの行列なのですが，見やすいように工夫をしているんですが，どうも上手くいかないようです。。すみません。

No.09160　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【青木繁伸】　2009/02/07(Sat) 12:36

12個のデータだけを使って，最初の方のデータ形式で分析すると，以下のようになります。

> summary(lm(多様性指数~.,d))

Call:
lm(formula = 多様性指数 ~ ., data = d)

Residuals:
       1        2        3        4        5        6        7        8        9       10 
 0.01283 -0.22667  0.05383 -0.01283  0.22667 -0.05383  0.05333  0.05333  0.05333 -0.05333 
      11       12 
-0.05333 -0.05333 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.9535303  0.2476404   3.850   0.0120 *
JulianDate   0.0009697  0.0008330   1.164   0.2969  
河川         0.4225000  0.1587121   2.662   0.0448 *
A上流        0.3730000  0.1587121   2.350   0.0655 .
A中流        0.4065000  0.1587121   2.561   0.0506 .
B森林       -0.1900000  0.1587121  -1.197   0.2849  
B植林地     -0.0510000  0.1587121  -0.321   0.7610  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1587 on 5 degrees of freedom
Multiple R-squared: 0.7021,	Adjusted R-squared: 0.3446 
F-statistic: 1.964 on 6 and 5 DF,  p-value: 0.2379

二番目のデータ形式でも，それなりの指定をすれば分析できますよ。それなりのというのは，そのままでは0,1,2,3という値を取る連続変数と見られるので，それらがカテゴリー変数だと宣言するのです。
そのまま使うと，

> summary(lm(多様性指数~.,d2))

Call:
lm(formula = 多様性指数 ~ ., data = d2)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.12717 -0.07100 -0.04225  0.03867  0.37333 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.5863636  0.2924606   5.424 0.000983 ***
JulianDate   0.0009697  0.0008717   1.112 0.302675    
河川        -0.4806667  0.2536811  -1.895 0.099972 .  
河川A場所   -0.1865000  0.0830366  -2.246 0.059549 .  
河川B場所    0.0950000  0.0830366   1.144 0.290203    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1661 on 7 degrees of freedom
Multiple R-squared: 0.5433,	Adjusted R-squared: 0.2824 
F-statistic: 2.082 on 4 and 7 DF,  p-value: 0.1867

カテゴリー変数だと宣言して分析すると，

> d2[,4] <- factor(d2[,4]) # カテゴリー変数に変換
> d2[,5] <- factor(d2[,5]) # カテゴリー変数に変換
> summary(lm(多様性指数~.,d2))

Call:
lm(formula = 多様性指数 ~ ., data = d2)

Residuals:
       1        2        3        4        5        6        7        8        9       10 
 0.01283 -0.22667  0.05383 -0.01283  0.22667 -0.05383  0.05333  0.05333  0.05333 -0.05333 
      11       12 
-0.05333 -0.05333 

Coefficients: (2 not defined because of singularities)
              Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.9535303  0.2476404   3.850   0.0120 *
JulianDate   0.0009697  0.0008330   1.164   0.2969  
河川         0.4225000  0.1587121   2.662   0.0448 *
河川A場所1   0.3730000  0.1587121   2.350   0.0655 .
河川A場所2   0.4065000  0.1587121   2.561   0.0506 .
河川A場所3          NA         NA      NA       NA     # 冗長な変数であるので除外してくれる
河川B場所1  -0.1900000  0.1587121  -1.197   0.2849  
河川B場所2  -0.0510000  0.1587121  -0.321   0.7610  
河川B場所3          NA         NA      NA       NA     # 冗長な変数であるので除外してくれる
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1587 on 5 degrees of freedom
Multiple R-squared: 0.7021,	Adjusted R-squared: 0.3446 
F-statistic: 1.964 on 6 and 5 DF,  p-value: 0.2379

No.09172　Re: 重回帰分析のダミー変数の使用方法と共線性の解釈　　【UW】　2009/02/09(Mon) 04:10

大変実践的なデータの解説をしていただきまして，誠にありがとうございました。

なるほど，後者のような変数の使い方でもカテゴリーデータとして宣言して分析すると，前者と同じ結果が得られるのですね。大変勉強になりました。

この度は，大変丁寧なご教授を頂きましてありがとうございました。重ねて御礼申し上げます。