No.09254 重回帰分析のモデル選択(変数決定)方法  【9232】 2009/02/17(Tue) 13:42

Multiple linear regressionの方法について,下記の流れで理解しています。(留学中に学んだため日本語表記がわからない部分があり失礼します)
===========
1)scatter plotやhistogramを描いてerror(残渣)の分布を確認し,間違い的なoutlier(外れ値?)を除く。
2) 回帰モデルの4仮定(正規分布,独立性,constant variance,エラー平均が0)を満たすか確認。(→満たさなければ回帰は使用困難。※アメリカ公衆衛生大学院の統計学授業ではこう習ったのですが, 他のデータソースではっきり裏が取れず,正しいのでしょうか??)
3)すべての独立変数(X)をモデルに入れてみる。(Full model)
4)multicollinearity(多重共線性)とoverfittingを避けるよう独立変数の数を調整する。
===========
ただ,具体のやり方については様々な方法があり,少し混乱しています。

3)であれば,私は以下「」のように行っているのですが,他の成書やウェブサイトでは,VIFやステップワイズ,また最初に各独立変数で単回帰を行いそのP値を参考にする,など色々あり,概ねのカットオフ値も様々です。
「multicollinearity については,correlationを確認し,高い変数(−1または1に近いもの)から削除していく。overfittingについては,変数を追加して いき,R2は上昇するがadjusted R2は減少するようになったところで追加をやめる。best modelの判断は,両者のバランスを見つつ,高いcorrelationの変数から削除していき,adjusted R2の減少傾向がなくなったところと判断する。」

そもそも,どれも妥当なやり方であり,変数の数としても,研究背景等を踏まえある程度柔軟に対応可能なのでしょうか。(変数をなるべく残したい場合はよほど強いmulticollinearityとoverfittingを除けば何とか認められるものなのでしょうか)

ま た,医学論文(疫学やヘルスサービスリサーチ)では,一般的にどの程度このあたりの背景(どのようにモデル選択を行い,なぜ○○変数を除外したか,など) を記載するものなのでしょうか。この分野の文献ではあまり詳細な記述がなく(multiple regression,ANOVAといった解析方法のみ記述),私も論文に「MLRで行いoverfittingのため○○変数は除いた」程度しか書いて いなかったのですが,査読者から「should explain why」と返事が来ており,どこまで細部記述を求められているのか悩んでいます。

よろしくお願いします。

No.09258 Re: 重回帰分析のモデル選択(変数決定)方法  【sb】 2009/02/17(Tue) 15:07

統計モデルとは,大げさに言えば対象をどう見るかと云う世界観だと思います。

離婚歴の有無を例に とります。心臓の弁置換手術の院内死亡調査研究の場合入れますか?うつ病に伴う自殺研究の場合はどうでしょう?前者では,なぜ,入れたのか,後者では,な ぜ,入れなかったのかを問われるでしょう。後者では,sex(生物学的性別)ではなく,なぜ,gender(社会学的性別)を入れないのか,と指摘される (まさか)かも知れません。

査読者は,統計学的理由を求めているのでしょうか?

No.09261 Re: 重回帰分析のモデル選択(変数決定)方法  【9232】 2009/02/17(Tue) 15:57

ありがとうございます。

(なんとなく,議論の根深い「疫学VS統計学」的解釈の話の気もするのですが・・)

ということは,”疫学的に”相関(または因果)関係が予想される変数については,たとえ”統計学的に”多重共線性のような要因があったとしても,(前者を優先して)変数をモデルに残して分析しても可ということでしょうか?

私の例も,ご指摘のうつ病自殺に対する離婚歴などのようなもので,先行研究等から疫学的関係を考え選んだ10個の変数のうち,3変数は統計学的につじつまがあわないため泣く泣く除外した,という経緯があります。

な お,一定以上の投稿レベルの雑誌で同様のmultiple regressionのstudy designの研究をいくつか参照したのですが,Mmethodに書かれている複数の変数について特に調整したような記載もなく全てresultで値が出 されていたりするものが多く,どう考えていいものかと思っています。

査読者は,仰るとおり,おそらく「correlationやadjustedR2が○○だったから○○が疑われ,○○した」というような詳細な理由を求めているのかと思います。

No.09264 Re: 重回帰分析のモデル選択(変数決定)方法  【sb】 2009/02/17(Tue) 16:47

>「疫学VS統計学」的解釈の話の気もするのですが・・)

誰でも,出身分野の世界観から自由にはなれないものだと思います。

> 多重共線性の問題

結果は,奇妙奇天烈なものになりますので排除するのは当然です。

> 3変数は統計学的につじつまがあわない

統計学的につじつまが合わないとは,意味がよく判りません。

> 調整したような記載もなく全てresultで値が出されていたりするものが多く

具体例(文献)をあげて下さい。

No.09266 Re: 重回帰分析のモデル選択(変数決定)方法  【9232】 2009/02/17(Tue) 18:00

>> 3変数は統計学的につじつまがあわない

> 統計学的につじつまが合わないとは,意味がよく判りません。

多重共線性とoverfittingの危険があるため排除した,ということです。失礼しました。
はじめにあげたようなやり方で確認しておりますが妥当でしょうか。

>> 調整したような記載もなく全てresultで値が出されていたりするものが多く

> 具体例(文献)をあげて下さい。

た とえば,以下の小児疫学の論文は仮説がユニークで全米で注目を浴びた文献なのですが,regressionモデルを多用しており,その independent variablesも多いです。しかしmulti-やoverfittingを検討したような記述は見あたらないように思います。
http://archpedi.ama-assn.org/cgi/content/abstract/162/11/1026

No.09269 Re: 重回帰分析のモデル選択(変数決定)方法  【sb】 2009/02/17(Tue) 20:53

(1)なぜ,overfittingに言及しないか?
臨床疫学の場合,回帰分析は,交絡因子の調整に使われるのが専らだから。予測が目的の場合,当然,overfittingには,気をつけます。

(2)なぜ,多重共線性に言及しないか?
実際のデータ解析で,多重共線性に遭遇したことはないから。臨床疫学で使用する変数は,だいたい氏素性が知れています。

(3)文献について
多重共線性,overfittingを検討していたら,信頼性が高いとして,結論を正しいものと思いますか?

ところで,なぜ,自分の遣り方が,正しいか正しくないかそれ程までに,気になさるのでしょうか?100人の研究者がいたら,100個の統計モデルが出て来ても,極自然だと思いますが。

No.09270 Re: 重回帰分析のモデル選択(変数決定)方法  【青木繁伸】 2009/02/17(Tue) 21:20

まあ,参考までに書けば(私はその意見に賛成というわけではないが),ある分野においては,予測こそ命ということで,オーバーフィッティングだろうが多重共線性だろうがお構いなしで,とにかく最適な予測のできる重回帰式を目指すのだということもあるそうですよ。
短期の予測なら,そのようにして作った予測式が最適なんでしょうけどね。

ステップワイズ変数選択をして,その結果を参考に,必要な変数を加え,不要な変数を除く(理由を明示して)で宜しいのでは?

No.09271 Re: 重回帰分析のモデル選択(変数決定)方法  【青木繁伸】 2009/02/17(Tue) 21:43

おせっかいながら,なおかつ,正しくないかも知れないが

Multiple linear regression → 重回帰分析
scatter plot → 散布図
histogram → ヒストグラム
error(残渣) → 残差で可, 誤差
outlier(外れ値?) → 外れ値で可
constant variance → 予測域で誤差分散が一定
エラー平均が0 → 誤差の平均が0
Full model → そのままカタカナでフルモデルとか書かれるが,完全モデルかな
multicollinearity(多重共線性) → 多重共線性でOK
overfitting → over fitting とそのまま使われているようで
correlationを確認し,高い変数(−1または1に近いもの)から削除していく → この場合の correlation は,独立変数間の相関,あまり相関の高すぎる独立変数は除くと言うこと
best model → 最良モデル
adjusted R2 → 自由度調整済みの重相関係数の二乗

No.09282 Re: 重回帰分析のモデル選択(変数決定)方法  【9232】 2009/02/19(Thu) 02:18

先生方,大変ありがとうございます。対訳も助かります。

>ところで,なぜ,自分の遣り方が,正しいか正しくないかそれ程までに,気になさるのでしょうか?100人の研究者がいたら,100個の統計モデルが出て来ても,極自然だと思いますが。

使用している教科書にも↓とあるので,
Usually your data could be analyzed in multiple ways, each of which could yield legitimate answers.
少なくとも正しいstatistcal testを選択できていれば,あまり細部にこだわりすぎる必要はないのかもしれませんね。

ただ,正しいstat testの選択は,色んなフローチャートが存在したりすることもあり
素人の頭を悩ますことが多く,またお知恵をお借りできれば幸いです。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る