No.20537 多重共線性について  【ppla】 2013/11/21(Thu) 16:39

サンプルサイズ9で重回帰分析を行ったところ,以下のような結果が表示されました。

回帰係数 標準誤差  β t値 有意確率 許容度 VIF
x1 .758 .163 .859 4.656 .010 .409 2.445
x2 .711 .108 .851 6.569 .003 .830 1.205
 x3  -.770 .167 -.845 -4.605 .010 .418 2.392
x4 -1.021 .183 -.713 -5.584 .005 .854 1.171
この結果はあまりにも標準回帰係数が高い(低い)ような気がするのですが,これは多重共線性が起こっているとみていいのでしょうか。他の書籍やサイトにVIF>10だと多重共線性が発生しているとある一方で今回の結果はVIF<10だったので,疑問に思いました。

また,そもそもサンプルサイズ9くらいだと重回帰分析を行わないほうがよいのでしょうか?

No.20538 Re: 多重共線性について  【ppla】 2013/11/21(Thu) 16:44

すみません,上の図がめちゃくちゃになっていました。

結果は画像として添付します。よろしくおねがいします。


No.20540 Re: 多重共線性について  【青木繁伸】 2013/11/21(Thu) 17:06

「あまりにも標準回帰係数が高い(低い)ような気がする」

気のせいでしょう。そのように思う根拠は?
「気がする」のと分析結果どちらを信頼できますか?

多重共線性は起こっていないでしょう。「多重共線性が起きているときに標準回帰係数が高い」というのは,1を超えたりすることです。

もっとも,サンプルサイズが9で,独立変数が4個というのは多すぎるでしょう(t分布の自由度が 9-4-1=4に過ぎない)。無茶です。
つまり,あと4個独立変数を加えれば,予測値が実測値に完全に一致するということですから。
重回帰分析をするなということではなく,もう少し少ない個数の独立変数を使うべきだろうということです。ステップワイズ変数選択などをするとどうなりますか?

さらに,a1, a2, a3, b1 と 従属変数が実際にはどういうものかはあなたにしかわかりませんが,それらの変数の関連から見て得られた回帰係数は変なのですか?さもありなんなのですか?

No.20542 Re: 多重共線性について  【ppla】 2013/11/21(Thu) 18:11

>気のせいでしょう。そのように思う根拠は?
>「気がする」のと分析結果どちらを信頼できますか?

そうなのですか。てっきり多重共線性が発生しているとばかり思っておりました。起こってないとすると分析結果を信頼します。

>サンプルサイズが9で,独立変数が4個というのは多すぎるでしょう

不勉強で申し訳ないのですが,このような場合,サンプルサイズが小さいと,偏回帰係数が極端になりやすい,という理解であっていますでしょうか。

>ステップワイズ変数選択などをするとどうなりますか?

以下の画像のようになりました。これは「独立変数がひとつも方程式に残らなかった」ことをあらわすことはわかりましたが,強制投入だと有意な偏回帰係数なのになぜこのようなことが起こるのでしょうか...。

>それらの変数の関連から見て得られた回帰係数は変なのですか?さもありなんなのですか?

いえ,そんなことはありませんが,相関係数がそんなに高くなかったので,なんで偏回帰係数がこんなに高くなるのかなあ...と思った次第です。

No.20543 Re: 多重共線性について  【ppla】 2013/11/21(Thu) 18:12

すみません画像添付できていませんでした。
以下の画像です。


No.20544 Re: 多重共線性について  【青木繁伸】 2013/11/21(Thu) 18:19

先にも書いたように,独立変数をめいっぱい詰め込むと,予測値と実測値はものすごく近いものになってしまいます。 すごく予測できるということですよ。ということは偏回帰係数は有意になるでしょう。しかし,それは,意味のないこと。データが2つしかないと き,y=ax+b という直線で完全に予測できるからといっても,だれも感心しないでしょう。kの分析結果で,a, b は誤差を持ちません。誤差がないのだからt値は無限大です。P値は0です。有意です。

> サンプルサイズが小さいと,偏回帰係数が極端になりやすい,という理解であっていますでしょうか

極端になりやすいということではなく,オーバーフィッティングになるんです。得られる回帰式は,一般性を欠く(他の新しい独立変数データを使って予測しようと思っても,ろくでもない予測値しか吐き出さない)

> 相関係数がそんなに高くなかったので,なんで偏回帰係数がこんなに高くなるのかなあ...と思った

それが真実なのです。どの変数を使っても予測などできない。
独立変数と従属変数の散布図を描いてみてください。
それを見ると,予測できるとはとても思えないという結論に達するでしょう。

No.20545 Re: 多重共線性について  【ppla】 2013/11/21(Thu) 18:33

オーバーフィッティングなのですね,なるほどすっきりしました,ありがとうございます。

No.20546 Re: 多重共線性について  【ppla】 2013/11/21(Thu) 19:04

すみません,もう一つ疑問が出てきました。

オーバーフィッティングになったとき,それがオーバーフィッティングであり,一般性を欠く予測値であると,判断する指標などはあるのでしょうか。

分散の均一性などが問題になってくるのでしょうか...。

No.20549 Re: 多重共線性について  【青木繁伸】 2013/11/21(Thu) 20:44

明らかに意味のない変数までも有意な偏回帰係数を持つということで十分でしょう。
サンプルサイズ9に対して4個の独立変数を使うなどというおかしなことをしないことです。

No.20550 Re: 多重共線性について  【mendley】 2013/11/21(Thu) 21:17

ありがとうございます。
そうなのですね,分かりました,よりよい分析ができるよう,精進いたします。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る