「統計学関連なんでもあり」の過去ログ--- 042

No.09313　重回帰分析の独立変数の処理と変数選択　　【9232】　2009/02/22(Sun) 21:54

8群（クリニック）の12ヶ月毎のデータ（連続変数：事後に後ろ向きに測定）を従属変数とし，multiple regressionを行っています。目的は，従属変数と独立変数との相関関係でありますが，予測値あるいは群間差というよりは，各独立変数の coefficient（回帰変数）の正負に着目しており，かつ交絡因子の調整を狙い重回帰を使用しています。

1）8クリニック×12 月＝96を観察データ（サンプル数）として，10の独立変数とlinear regressionを行っており，この方法で査読時には特に指摘は受けませんでした。ただ，8群（クリニック）毎のデータであるため，「matched data」（cluster data?)としての何らかの処理が必要かと気になっております（ただ前述のように群間差はそれほど気にしていません）。その必要があるのか，またそうであればどのような具体の手法があるか，恐れ入りますがご意見いただければと思います。

2）96個の観察データは非正規分布をとります。外れ値を除き対数変換すると正規分布になり（対数正規分布に従うデータと言えるのでしょうか），その変換後のデータと独立変数で重回帰を行っています。ただ，その正規分布は偶然の結果である印象があり，オリジナルの非正規分布データで回帰はできないものか思案しております。その場合，「nonparametric regression」（kernel regression，smoothing splinesやhierarchical regression?）の適用が妥当なのでしょうか。

3）重回帰の変数選択（model selection）について，使用教科書（Modern Epidemiology 3rd edit.:Rothman&Greenland 2008)を見てもこの部分は議論のあるところのようで少々悩んでおります。
i) やはりステップワイズ法が最も一般的なのでしょうか。また，その中でもforward. backward, hierarchical等がありますが，通常hierarchical＞forward>backwardの順でベターと認識されているのでしょうか。（前出の教科書は「minimal modelからexpanding searchを行うのが良い」とあるのですが，具体的に統計ソフトでどう処理できるのかがよくつかめずにおります）
ii)　ステップワイズ等の短所を補うかわりにhierarchical(multi-level) modeling等々がmodern methodsとしてあげられているのですが，近年ではこちらのほうが妥当なのでしょうか。（ステップワイズ法でも十分許容される範囲であれば，それを使いたいと思ってはいますが・・）

長くなり恐縮ですが，よろしくお願いいたします。

No.09314　Re: 重回帰分析の独立変数の処理と変数選択　　【青木繁伸】　2009/02/22(Sun) 23:24

> 96個の観察データは非正規分布をとります。外れ値を除き対数変換すると正規分布になり（対数正規分布に従うデータと言えるのでしょうか），その変換後のデータと独立変数で重回帰を行っています。

ですから，96個のデータが正規分布ではなかったというのもなんですし，対数変換したら正規分布になったというのも，なんなんですよ。ね。

> やはりステップワイズ法が最も一般的なのでしょうか。
> hierarchical(multi-level) modeling等々がmodern methodsとしてあげられているのですが，近年ではこちらのほうが妥当なのでしょうか

「統計学的」変数選択というのは，あくまでも，あなたのデータに基づいたらと言うことでもあるし，データにおいて，こういう基準でやったらこういう結果になりますと言うことなので，「そのような条件下でやった変数選択（モデル・結果）は認められない」と言われれば，それに反論できない限り無力なんですよ。

変数選択の結果を参考にして，先行研究の結果を参考にして，あなたが立てる仮説（すなわちモデル）で勝負すべきものなんですよ。今までと同じならそれを補強するものになるし，今までに加えるものならその意義を問うものになるし，今までの説に真っ向から対立するものなら挑戦的な仮説を呈示するものになるし。いずれにせよ，そういう意味を持つことになると言うことを意識すれば，いいかげんなモデル呈示はできないんですよねぇ。ですから，第三者としては，一般的な回答しかできないでしょう。

No.09315　Re: 重回帰分析の独立変数の処理と変数選択　　【9232】　2009/02/23(Mon) 01:05

大変ありがとうございます。
ご指摘の，モデルは先行研究に基づき個別に適切性が判断されるもの，ということは認識しております。
ただ，当該研究は先行研究が皆無であるため，その点で少し慎重を要しております。

当研究では，自分と関係者の判断に基づき相関関係が予想される独立変数（仮説）を設定しました。
この場合，（一般論として）以下の主張は成り立つでしょうか。（ご判断できかねるようでしたら度々申し訳ありません）

○model selection
「当該研究には先行研究がないため当初の仮説（全10独立変数）を重視することとし，多重共線性(ここではVIF＞10を基準とした），over fitting(ここではadjust R2の増加を基準とした)に明らかに該当する2変数を除き，残り8変数を選択した」

No.09325　Re: 重回帰分析の独立変数の処理と変数選択　　【青木繁伸】　2009/02/23(Mon) 23:20

> この場合，（一般論として）以下の主張は成り立つでしょうか。

論文全部を見ていないので（査読者レベルの）判断はできませんが，書かれている範囲では特に問題はないでしょう（判断の根拠となるデータが示されていないのでどうとも判断のしようがない。そのような，資料を求めない査読者もいるでしょうから，まああ，やってごらんになって，クレームが付いたらそれに対処すると言うことでよいのではないでしょうか）。

No.09330　Re: 重回帰分析の独立変数の処理と変数選択　　【9232】　2009/02/24(Tue) 20:28

青木先生，ありがとうございます。やや不安は残りますが，とりあえずはこれで査読の返事としてみたいと思います。