No.20129 Re: ロジスティック回帰について 【青木繁伸】 2013/08/09(Fri) 09:51
> ロジスティック回帰での過学習の抑制は赤池情報量規準やベイズ情報量規準が担っているため,交差検証は不要と考えてよいのでしょうか?
別物でしょう。むしろ,分析に使用するサンプルサイズが大きいので(全サンプルを使う),独立変数が選ばれやすくなる(P 値が小さくなりがち)ので,逆効果になるでしょう。
> ロジスティック回帰で交差検証を行うという話をあまり聞いたことがありません
適用されている分野のデータにおいては,全サンプルを使ってもなおサンプルサイズがそう大きくはないので,しようと思ってもできないのが現実なのでしょう。
サンプルが有り余っているならやるほうがよいでしょうね。
No.20130 Re: ロジスティック回帰について 【迷羊】 2013/08/09(Fri) 10:41
青木先生
ご回答ありがとうございます。何点か確認させてください。
>別物でしょう
wilipediaによるとAICはOverfittingを避けるためにパラメーター数を抑制する,というような記載があったのですが,これは間違いなのでしょうか?
http://ja.wikipedia.org/wiki/赤池情報量規準
>サンプルが有り余っているならやるほうがよいでしょうね
交差検証(例えばLeave-one-out-cross-validation)はサンプル数が少ない場合でも汎化性を評価できるように開発された手法だと思うのですが,サンプルサイズの大きさは関係ないのではないでしょうか?
No.20131 Re: ロジスティック回帰について 【TY】 2013/08/09(Fri) 11:15
参考までに,英語圏でも同じような悩みの人はいるようで,cross validationが勧められていました。
AICで罰則付けていてもoverfitの問題は避けられないようです。
http://stats.stackexchange.com/questions/52267/logistic-regression-as-classifier-and-overfitting
No.20134 Re: ロジスティック回帰について 【青木繁伸】 2013/08/09(Fri) 21:36
> wilipediaによるとAICはOverfittingを避けるためにパラメーター数を抑制する,というような記載があったのですが,これは間違いなのでしょうか?
私が書いていることは,もし,サンプルサイズが n として,半分に分けて n/2 のサンプルで学習して,残りの n/2 で検証するという場合のことです。
有 意な独立変数を選ぶ基準はどちらも同じく AIC を使うとして,n/2 のデータで有意な変数を選ぶときと,そういうことをしないで全サンプル n を使って有意な変数を選ぶとき,選ばれる変数の個数はどちらが多いでしょうかということ。後者の多いと思いますよ。サンプルサイズが多ければ,有意性検定 は有意になりがち。
>>サンプルが有り余っているならやるほうがよいでしょうね
> 交差検証(例えばLeave-one-out-cross-validation)はサンプル数が少ない場合でも汎化性を評価できるように開発された手法だと思うのですが,サンプルサイズの大きさは関係ないのではないでしょうか?
モ デル推定に「サンプルサイズの大きさは関係ない」わけはありません。当たり前ですが,推定精度が違うでしょう。サンプルサイズが有り余っていないなら,い くら残りの n/2 で検証するからといっても,そもそも n/2 という十分ではないサンプルに基づいた,ただでさえ不安定な結果はどうしようもないでしょう。それならいっそ全数使っちゃえということでしょう。どの程度 が十分かの基準は別。
● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る