No.14360 重回帰分析の説明変数の選択(F値?p値?)  【michi】 2011/02/26(Sat) 01:37

いつも参考にさせていただいています。
重回帰分析における説明変数の選択方法について質問させていただきます。
EXCELを使うので,総当たり法より手軽な,変数減数法を用いたいと思います。
何冊か本を読んだので,試した方法です。

1.説明変数間で多重共線性がないこと,説明変数と目的変数に相関があることを確認して,重回帰分析を行う。説明変数は7つから始めるとする。
2.説明変数のp値(偏回帰係数の有意性の検定の結果)が最も大きい変数を除外して,もう一度重回帰分析を行う。これを説明変数が1つになるまで繰り返し行う。
3.全ての結果の,自由度修正済み決定係数の最大のケースを最適モデルとする。

と, こんな感じなのですが,この通りにやると,6説明変数が最適モデルのはずなのに,説明変数のp値が0.05よりかなり大きいものが含まれてしまいます。サ ンプル数は250程度あります。今回の重回帰分析の目的は,目的変数に影響を与える説明変数を明らかにし,その影響度を知ることなので,説明変数に有意で ないものが入っているのは
おかしいように思います。
もう一度,結果をみると,4つの説明変数を採用した時に,すべて有意(p 値<0.05)となります。自由度修正済み決定係数も0.7程度で,最大の時(6説明変数)とあまり変わりません。分散分析のF値は全てのパターン で有意でした。このようなケースでは,4つの説明変数が目的変数に影響を与えていると考えてよいでしょうか。総当たりでなく,変数減数法でやっています。

他 に気になる方法があります。最適モデルを決定するときに,各説明変数のt値を2乗したF値というものを使って,その値が2.0より小さい説明変数を除外し て,重回帰分析を繰り返し,F値が全て2.0より大きくなった時点の説明変数が最適な組み合わせというものです。いろいろ調べると,変数選択はこのF値を 利用することが多いようです。

ただ,F値が2.0より大きくても,p値>0.05のケースはあります。そもそも,p値を見れば有効な変数かどうかわかるのに,なぜ,F値をわざわざ導出しているのか疑問です。

今回のように説明変数が有効かどうかを知りたいときは,変数減数法で,p値が全て有意となる変数の組み合わせのうち,自由度修正済み決定係数の最大のものを見つけるという方法で問題ないでしょうか。

No.14361 Re: 重回帰分析の説明変数の選択(F値?p値?)  【青木繁伸】 2011/02/26(Sat) 11:54

> p値を見れば有効な変数かどうかわかるのに,なぜ,F値をわざわざ導出しているのか疑問です。

昔のコンピュータ(プログラム)では,F 値に対応する P 値を簡単に求めることができなかった(そういう風習がなかった)ために,そういうことになっているのでしょう。

> 変数減数法で,p値が全て有意となる変数の組み合わせのうち,自由度修正済み決定係数の最大のものを見つけるという方法で問題ないでしょうか。

ごくまれな現象ですが,一度モデルから追い出された変数が,後のほうになってモデルに追加されるようになることがあります。

No.14371 Re: 重回帰分析の説明変数の選択(F値?p値?)  【michi 】 2011/02/28(Mon) 22:24

青木先生,ご回答ありがとうございます。

F値を使用している意味が良く分かりました。スッキリしました!

>ごくまれな現象ですが,一度モデルから追い出された変数が,後のほうになってモデルに追加されるようになることがあります。

初 めの質問で書いた「変数減数法による試した方法」では,自由度修正済み決定係数の最大のケースを最適モデルにするだけで,採択された説明変数のp値につい て考慮しないのは,結局,「変数減数法では,説明変数の選択に限界があるから,考慮しても仕方がない」ということなのでしょうか。

それとも,EXCEL用の書籍なので,あまり複雑な説明をしていないだけなのでしょうか。

再度の質問となり大変恐縮ですが,よろしくお願いいたします。

No.14372 Re: 重回帰分析の説明変数の選択(F値?p値?)  【青木繁伸】 2011/02/28(Mon) 22:35

> EXCEL用の書籍なので,あまり複雑な説明をしていないだけなのでしょうか。

そうい うことでもないでしょうけど,あなたの参照した方法は「変数減少法」,私が示した現象に対応するためには「変数減増法」の必要があるということ。その本が 示しているのが「手作業による変数選択法」であるならば,「変数減増法」を手作業でやるには複雑すぎるので,より単純な「変数減少法」を示したのではない でしょうかね。
変数選択については,簡単ではありますが http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg7.html に説明してあります。

No.14380 Re: 重回帰分析の説明変数の選択(F値?p値?)  【michi 】 2011/03/02(Wed) 11:01

「変数選択」についてもう少し調べてみました。「変数減少法」「変数減増法」などに関係なく,基本的に?モデルの 当てはまりの度合い(AIC,自由度調整済み決定係数など)を見る場合と,?偏回帰係数の有意性に基づく(F値を基準とする)場合とに分かれているようで す。(「総当たり法」で?と?をトータルで考慮している例もありました)

私が【試した方法】は?と?が中途半端に混ざっています。それ で,最終的に選択された説明変数に有意でないものが残ってしまいます。今回の重回帰分析の目的は,「目的変数に影響を与える説明変数を明らかにしたい」で す。EXCELを使って「変数減数法」でやることを考えると,?の方法がベターなのでしょうか。だとすれば,F値でなくてp値でよいとのお話だったので, 【p値を利用した?の方法】で良いということでしょうか。

【p値を利用した?の方法】
1.説明変数間で多重共線性がないこと,説明変数と目的変数に相関があることを確認して,重回帰分析を行う。
2.説明変数のp値が最も大きい変数を除外して,もう一度重回帰分析を行う。
3.2を繰り返し,p値が全て0.05(有意確率)より小さくなった時点の説明変数が組み合せを最適モデルとする。

【試した方法】(再掲)
1.説明変数間で多重共線性がないこと,説明変数と目的変数に相関があることを確認して,重回帰分析を行う。
2.説明変数のp値が最も大きい変数を除外して,もう一度重回帰分析を行う。これを説明変数が1つになるまで繰り返し行う。
3.全ての結果の,自由度修正済み決定係数の最大のケースを最適モデルとする。

長くなり申し訳ありません。よろしくお願いたします。

No.14382 Re: 重回帰分析の説明変数の選択(F値?p値?)  【青木繁伸】 2011/03/02(Wed) 11:33

> 【p値を利用した(2)の方法】で良いということでしょうか

それでよいでしょう。

(丸付き文字は使わないでと,お願いしている所なんですが)

No.14389 Re: 重回帰分析の説明変数の選択(F値?p値?)  【michi 】 2011/03/02(Wed) 22:18

何度もご回答いただき感謝申し上げます。

先生のコメントでF値とp値について良く理解できました。

また,「丸付き文字」を使用してしまい,大変失礼しました。

今後も先生のサイトを参考にさせていただきたいと思います。質問の前に,過去に同じ内容がないか,先生の解説ページに関連するものがないか,よく調べることもわすれないようにしたいと思います。ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る