No.09144 重回帰分析のダミー変数の使用方法と共線性の解釈  【UW】 2009/02/06(Fri) 11:28

重回帰分析を用いて,昆虫の多様性指数に影響を与えている原因を明らかにしようとしています。従属変数は多様性指数で,独 立変数は昆虫を採取した日(Julian Dateとして表記しています。),昆虫を採取した2つの河川,AとB(ダミー変数を用いてA河川を0としB河川を1としています),それぞれの河川で採 取した場所(河川Aでは上流,中流,下流で,それぞれ1,2,3,河川Bでは森林地,植林地,伐採地,それぞれ1,2,3)としています。

データの行列としては
多様性指数 Julian Date 河川 河川A場所 河川B場所
1.543 210 0 1 0
1.337 210 0 2 0
1.211 210 0 3 0
1.624 320 0 1 0
1.897 320 0 2 0
1.210 320 0 3 0
1.443 210 1 0 1
1.582 210 1 0 2
1.633 210 1 0 3
1.443 320 1 0 1
1.582 320 1 0 2
1.633 320 1 0 3
という形にしました(実際は72個のデータがあって,それぞれの採取場所で3回繰り返しが生じています)。
でも,それぞれの河川の採取場所については場所ごとに1,2,3としているのですが,これで良いのかどうか良くわかりません。もしくは,採取場所を1と0だけで表現したほうが良いでしょうか?(そうなると,それぞれの採取場所の列が2列ずつになるかと思います。)

共線性の診断として条件指標の大きいところで,分散の比率が高い独立変数間に共線性の可能性があると本に書かれているのですが,どの程度の値が共線性の可能性に値するのでしょうか?
ちなみにSPSSを使用して得た値は以下のようになっています。
次元 固有値 条件指数 定数 JulianDate 河川A場所 河川B場所 河川
1 3.500 1.000 0.00 0.00 0.00 0.01 0.00
2 1.341 1.616 0.00 0.00 0.06 0.02 0.01
3 0.108 5.690 0.01 0.02 0.28 0.69 0.04
4 0.043 9.056 0.02 0.06 0.59 0.28 0.90
5 0.008 21.041 0.97 0.92 0.07 0.00 0.04
上記の表からすると,条件指数が9.056の行の河川A場所.59と河川.90の間に共線性があるのかと疑われますが,どのように解釈するべきなのでしょうか??もしくは条件指数が5.690の行の河川A場所.28と河川B場所.69の間にも共線性があるのでしょうか?

非常に長くなってしまいましたが,ご教授いただければ幸いです。
統計については初心者で,よくわかっていない部分があり,意味不明な解釈になっているかもしれませんが,よろしくお願いいたします。

No.09147 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【青木繁伸】 2009/02/06(Fri) 13:03

> 採取場所を1と0だけで表現したほうが良いでしょうか?(そうなると,それぞれの採取場所の列が2列ずつになるかと思います。

2列ずつではなく3列ずつになるのでは。つまり,河川A場所なら,カテゴリーは「河川Aではない」,「上流」,「中流」,「下流」の4つですから,それを表現するために必要なダミー変数は3つになります。

> 共線性の診断として条件指標の大きいところで,分散の比率が高い独立変数間に共線性の可能性があると本に書かれているのですが,どの程度の値が共線性の可能性に値するのでしょうか?

堀先生の
http://www.ec.kagawa-u.ac.jp/~hori/spss/spss.html
の中にある
  多重共線性チェックマクロ
  多重共線性チェックマクロ2
を使うとよいと思います。

また,VIF を計算してくれるソフトを使うとよいと思います。

No.09152 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【UW】 2009/02/07(Sat) 03:40

迅速なご教授ありがとうございます。
>2列ずつではなく3列ずつになるのでは。つまり,河川A場所なら,カテゴリーは「河川Aではない」,「上流」,「中流」,「下流」の4つですから,それを表現するために必要なダミー変数は3つになります。

上記にある先生のご助言を基に,ダミー変数を用いてそれぞれ3つのカテゴリーを作ってみました。これでSPSSに入力したら,河川Aおよび河川Bの場所が多様性指数に与えている影響が強いかどうかを見ることができるでしょうか?
多様性指数 JulianDate 河川 河川Aではない 上流 中流 河川Bではない 森林 植林地
1.543 210 0 0 1 0 0 0 0
1.337 210 0 0 0 1 0 0 0
1.211 210 0 0 0 0 0 0 0
1.624 320 0 0 1 0 0 0 0
1.897 320 0 0 0 1 0 0 0
1.210 320 0 0 0 0 0 0 0
1.443 210 1 1 0 0 1 1 0
1.582 210 1 1 0 0 1 0 1
1.633 210 1 1 0 0 1 0 0
1.443 320 1 1 0 0 1 1 0
1.582 320 1 1 0 0 1 0 1
1.633 320 1 1 0 0 1 0 0
>VIF を計算してくれるソフトを使うとよいと思います。
確 かに,その本(ちなみにSPSSによる多変量データ解析の手順)に許容度の小さい独立変数,またはVIFの大きい独立変数は残りの独立変数との間に線型性 がある可能性を持っているので,重回帰分析をするときには除いたほうが良いかみしれません,と書いてあります。確かに,VIFはVIF値=1/許容度とい う式から計算されるので,VIFの大きい独立変数もしくは許容度の小さい独立変数に着目する必要があるかもしれません。しかし,それらの値を見て,どう解 釈するのかは全くわからない状況です。前回の質問時に記述した重回帰分析の結果にも許容度とVIFの値が掲載されていましたので以下に示します。先生が紹 介してくださった堀先生のwebの方法もあるかとは思うのですが,やはり結果として得られた数値の解釈の仕方を知っておく必要があるので,是非ご教授して いただければと思います。
             許容度     VIF
JulianDate 1.000 1.000
河川 0.143 7.000
河川A場所 0.250 4.000
河川B場所 0.250 4.000
どうぞよろしくお願いいたします。

No.09155 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【青木繁伸】 2009/02/07(Sat) 10:56

> これでSPSSに入力したら,河川Aおよび河川Bの場所が多様性指数に与えている影響が強いかどうかを見ることができるでしょうか?

聞かれても,こちらにはデータがないので,回答することができません。
やってご覧になれば,すぐ結果はわかるでしょう。

「許容度」って,「トレランス」だったのですか。

トレランスが0.1以下(VIFが10以上)なら,その変数が多重共線性の原因になっているとするのが慣例だと思います。

No.09156 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【UW】 2009/02/07(Sat) 11:05

早速のご回答,大変ありがとうございました。
出てきた結果である数値については全く判りませんでしたが,今回の質問に対する回答を得られたことで,現在および今後の結果の解釈が容易にできると思います。
この度は,ありがとうございました。

No.09157 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【青木繁伸】 2009/02/07(Sat) 11:08

河川と,河川Aではない,河川Bではないは同じになりますね。確かめてみればよかった。
あなたが最初にやっていたように2つのダミー変数でよいかも。

No.09159 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【UW】 2009/02/07(Sat) 11:32

>河川と,河川Aではない,河川Bではないは同じになりますね。確かめてみればよかった。
あなたが最初にやっていたように2つのダミー変数でよいかも。

確かに,そうかもしれません。ということは,以下のもので正しいということですか?
多様性指数 JulianDate 河川 A上流 A中流 B森林 B植林地
1.543 210 0 1 0 0 0
1.337 210 0 0 1 0 0
1.211 210 0 0 0 0 0
1.624 320 0 1 0 0 0
1.897 320 0 0 1 0 0
1.210 320 0 0 0 0 0
1.443 210 1 0 0 1 0
1.582 210 1 0 0 0 1
1.633 210 1 0 0 0 0
1.443 320 1 0 0 1 0
1.582 320 1 0 0 0 1
1.633 320 1 0 0 0 0
そして,最初に記述したこれらの変数(河川A場所,河川B場所)の使用法ではやはり意味がないのでしょうか?
多様性指数 JulianDate 河川 河川A場所 河川B場所
1.543 210 0 1 0
1.337 210 0 2 0
1.211 210 0 3 0
1.624 320 0 1 0
1.897 320 0 2 0
1.210 320 0 3 0
1.443 210 1 0 1
1.582 210 1 0 2
1.633 210 1 0 3
1.443 320 1 0 1
1.582 320 1 0 2
1.633 320 1 0 3
振り出しに戻る質問で申し訳ないのですが,よろしくお願いいたします。
上記の二つの行列なのですが,見やすいように工夫をしているんですが,どうも上手くいかないようです。。すみません。

No.09160 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【青木繁伸】 2009/02/07(Sat) 12:36

12個のデータだけを使って,最初の方のデータ形式で分析すると,以下のようになります。
> summary(lm(多様性指数~.,d))

Call:
lm(formula = 多様性指数 ~ ., data = d)

Residuals:
1 2 3 4 5 6 7 8 9 10
0.01283 -0.22667 0.05383 -0.01283 0.22667 -0.05383 0.05333 0.05333 0.05333 -0.05333
11 12
-0.05333 -0.05333

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.9535303 0.2476404 3.850 0.0120 *
JulianDate 0.0009697 0.0008330 1.164 0.2969
河川 0.4225000 0.1587121 2.662 0.0448 *
A上流 0.3730000 0.1587121 2.350 0.0655 .
A中流 0.4065000 0.1587121 2.561 0.0506 .
B森林 -0.1900000 0.1587121 -1.197 0.2849
B植林地 -0.0510000 0.1587121 -0.321 0.7610
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1587 on 5 degrees of freedom
Multiple R-squared: 0.7021, Adjusted R-squared: 0.3446
F-statistic: 1.964 on 6 and 5 DF, p-value: 0.2379
二番目のデータ形式でも,それなりの指定をすれば分析できますよ。それなりのというのは,そのままでは0,1,2,3という値を取る連続変数と見られるので,それらがカテゴリー変数だと宣言するのです。
そのまま使うと,
> summary(lm(多様性指数~.,d2))

Call:
lm(formula = 多様性指数 ~ ., data = d2)

Residuals:
Min 1Q Median 3Q Max
-0.12717 -0.07100 -0.04225 0.03867 0.37333

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.5863636 0.2924606 5.424 0.000983 ***
JulianDate 0.0009697 0.0008717 1.112 0.302675
河川 -0.4806667 0.2536811 -1.895 0.099972 .
河川A場所 -0.1865000 0.0830366 -2.246 0.059549 .
河川B場所 0.0950000 0.0830366 1.144 0.290203
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1661 on 7 degrees of freedom
Multiple R-squared: 0.5433, Adjusted R-squared: 0.2824
F-statistic: 2.082 on 4 and 7 DF, p-value: 0.1867
カテゴリー変数だと宣言して分析すると,
> d2[,4] <- factor(d2[,4]) # カテゴリー変数に変換
> d2[,5] <- factor(d2[,5]) # カテゴリー変数に変換
> summary(lm(多様性指数~.,d2))

Call:
lm(formula = 多様性指数 ~ ., data = d2)

Residuals:
1 2 3 4 5 6 7 8 9 10
0.01283 -0.22667 0.05383 -0.01283 0.22667 -0.05383 0.05333 0.05333 0.05333 -0.05333
11 12
-0.05333 -0.05333

Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.9535303 0.2476404 3.850 0.0120 *
JulianDate 0.0009697 0.0008330 1.164 0.2969
河川 0.4225000 0.1587121 2.662 0.0448 *
河川A場所1 0.3730000 0.1587121 2.350 0.0655 .
河川A場所2 0.4065000 0.1587121 2.561 0.0506 .
河川A場所3 NA NA NA NA # 冗長な変数であるので除外してくれる
河川B場所1 -0.1900000 0.1587121 -1.197 0.2849
河川B場所2 -0.0510000 0.1587121 -0.321 0.7610
河川B場所3 NA NA NA NA # 冗長な変数であるので除外してくれる
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1587 on 5 degrees of freedom
Multiple R-squared: 0.7021, Adjusted R-squared: 0.3446
F-statistic: 1.964 on 6 and 5 DF, p-value: 0.2379

No.09172 Re: 重回帰分析のダミー変数の使用方法と共線性の解釈  【UW】 2009/02/09(Mon) 04:10

大変実践的なデータの解説をしていただきまして,誠にありがとうございました。

なるほど,後者のような変数の使い方でもカテゴリーデータとして宣言して分析すると,前者と同じ結果が得られるのですね。大変勉強になりました。

この度は,大変丁寧なご教授を頂きましてありがとうございました。重ねて御礼申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る