No.07564 ダミー変数を含む回帰式の変数選択尺度について  【ゆか】 2008/09/03(Wed) 15:12

非常にナンセンスな質問と思いますが,困ってまして質問します。
いま,次のような2種類の回帰式を比較しています。

式1 Y=A0+A1・X1+A2・X2+A3・D
式2 Y=A0+A1・X1+A2・X2

Dはダミー変数でカテゴリーAのデータは1,カテゴリーBのデータは0です。実はデータ数は全部で100個程度なのですが,カテゴリーに属する数が極端で,場合によっては一方のカテゴリーに1つか2つしかデータが属さないことがあります。

あ たりまえのことですが,例えばカテゴリーAに属するデータ数が1個,Bは99個のような場合には,カテゴリーAのデータに対して式1は完全にフィットして しまい,AICなどでは必ず式1が選ばれます。分析対象が多く,一つ一つ眺めることができないため,やむをえず機械的に分析しているのですが,式1が適切 と判断されてしまいます。

しかし,直感的には単にデータに偏りがあるためにダミー変数が過剰に評価されているだけで使い方がそのものが間違っているように思えます。

より適切な方法などコメントいただけないでしょうか。。。。。

No.07565 Re: ダミー変数を含む回帰式の変数選択尺度について  【青木繁伸】 2008/09/03(Wed) 15:24

段落の途中でリターンキーを押して強制改行しないようにお願いしているところであります

さて,

> カテゴリーに属する数が極端で,場合によっては一方のカテゴリーに1つか2つしかデータが属さないことがあります。

なら,そういう変数は回帰モデルに含める価値がないのでは?

No.07566 Re: ダミー変数を含む回帰式の変数選択尺度について  【ゆか】 2008/09/03(Wed) 15:40

予測に使おうと思い,まれな事象としてダミー変数で区別したいと考えていました。各カテゴリーに含まれるデータの 数のようなものが入った統計モデル尺度があるのではないかと睨んだのですが。。いずれにしてもありがとうございます。もう少しデータを見たり擬似データを 作って評価したりしてみます。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る