No.12210 ロジステック回帰分析の変数選択 【JJK】 2010/03/02(Tue) 20:47
医学系の大学院生です。
ロジステック回帰分析をする場合,events per variable(EPV)が10より大きくなると問題は起きないということですが(質問No. 12134 に関連),この,変数選択についての質問です。
3年間の縦断的研究において,5つの群から疾患Aが発生してくる率を調べています。
疾
患の発生を従属変数とし,独立変数として,年齢や性別,高血圧の有無,ある遺伝子の有無,5つの群(ダミー変数を使用)などを強制投入してロジステック回
帰分析をしていたのですが,不勉強から,イベント発生数が71であるのに,当初10の変数を入れていました。しかし,EPV>10となるようにする
ためには,変数は7個までにした方がよい,ということになります。
数ある変数から選択をする際に,その基準はどうすればよいのですか。
まず各変数ごとに単変量のロジステック解析をして,有意にでたもののみを今度は多変量ロジステック解析の独立変数として使うのはよくない,と伺いました。
多重共線性がある変数はもちろん何とかしなくてはなりませんが。
これまで先行研究にてリスクファクターといわれてきたもの(私のデータでいえば,年齢や遺伝子等)を中心に考えるのか?,など悩んでいます。
初歩的な質問かと思いますが,教えていただけると幸いです。
No.12211 Re: ロジステック回帰分析の変数選択 【surg】 2010/03/03(Wed) 12:16
> 数ある変数から選択をする際に,その基準はどうすればよいのですか。
AICの小さいモデルを選択するのが一般的です.
「AIC」や「モデル選択」で検索してみてください.
No.12213 Re: ロジステック回帰分析の変数選択 【JJK】 2010/03/03(Wed) 12:48
surgさん,ありがとうございます。
AICについてまずは勉強してみます。
過去にも同様のディスカッションがなされていたのですね。
気付きませんでした。お手数をおかけして申し訳ございません。
● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る