★ ロジスティック回帰でのダミー変数の扱いについて ★

9299. ロジスティック回帰でのダミー変数の扱いについて tyukiko 2006/02/02 (木) 17:16
└9300. Re: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸 2006/02/02 (木) 18:22
 └9310. Re^2: ロジスティック回帰でのダミー変数の扱いについて tyukiko 2006/02/03 (金) 20:13
  ├9312. Re^3: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸 2006/02/03 (金) 21:27
  └9311. Re^3: ロジスティック回帰でのダミー変数の扱いについて tyukiko 2006/02/03 (金) 20:19
   └9313. Re^4: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸 2006/02/03 (金) 21:31


9299. ロジスティック回帰でのダミー変数の扱いについて tyukiko  2006/02/02 (木) 17:16
ロジスティック回帰で変数にダミー変数を使用する場合について教えて下さい。
ある動物の行動の有無を環境条件(植生,傾斜角度など)で表したいと考えています。
このデータでは植生が5種類(A〜E)あり,以下のようにダミー変数4つ(Da,Db,Dc,Dd)で表しています。
  植生A:(Da,Db,Dc,Dd)=(1,0,0,0)
  植生B:(Da,Db,Dc,Dd)=(0,1,0,0)
  植生C:(Da,Db,Dc,Dd)=(0,0,1,0)
  植生D:(Da,Db,Dc,Dd)=(0,0,0,1)
  植生E:(Da,Db,Dc,Dd)=(0,0,0,0)

SPSSの変数減少法で変数選択を行った結果,Da,Dbのみが変数として選択されました。
過去ログの451や6623をみると,変数選択でカテゴリー変数のどれかひとつでも外された場合は,同じ変数に属するカテゴリー変数は全て除外するか,ダミー変数の構成を変えると書かれています。
なぜそのまま回帰式として使用してはいけないのか,教えていただけないでしょうか?
確かにDc,Dd,Deの評価が全く同じになるというのがおかしいとは思うのですが…
よろしくお願い致します。

     [このページのトップへ]


9300. Re: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸  2006/02/02 (木) 18:22
> なぜそのまま回帰式として使用してはいけないのか,教えていただけないでしょうか?

例えば,カテゴリー E が最初に不要となったとすれば,カテゴリーは単に A,B,C,D,それ以外ということで5つに変わりないですが,さらに次の段階で D が不要となれば,A,B,C,それ以外ということでもとの D,E が併合されて新しいカテゴリーになりますね。そうすると理論的にはこの新しいカテゴリーを表すダミー変数と他の変数との分散共分散行列の要素が変化します。これは普通の変数が不要になったときには該当する分散共分散行列の行・列を削除すればよいというのとは異なります。単に行列の要素が代わるならその部分だけ再計算すればよいと思いますが,ステップワイズの仕組みを作っている演算にまで影響が及ぶのです。
もっとも,不要になったカテゴリーを併合して新たに分散共分散行列を作り,新たにステップワイズ変数選択を開始するというようなプログラムにすれば,変数単位に除去しなくても問題ないと思います。しかし,なかなか大変そうではあります。

     [このページのトップへ]


9310. Re^2: ロジスティック回帰でのダミー変数の扱いについて tyukiko  2006/02/03 (金) 20:13
青木先生,回答ありがとうございます。勉強になりました。
その後に試してみた結果と新たに出た課題を,ここに書かせていただきます。
おわかりになる方がいらっしゃれば,ご意見いただけるとありがたいです。

> 不要になったカテゴリーを併合して新たに分散共分散行列を作り,新たにステップワイズ変数選択を開始するというようなプログラムにすれば,変数単位に除去しなくても問題ないと思います。
SPSSの変数減少法では,不要になったカテゴリーを併合してステップごとに計算し直しているようです。つまりD,Eが不要になった場合は,A,B,C,それ以外という4カテゴリーで計算し直していると思われます。

今回扱っている生物データを解析するにあたり,課題となる点も新たに出てきました。
まず一つ目は,不要になったカテゴリーを併合してしまうこと自体の課題です。対象生物の生態を考えると,植生DとEは質の異なる生息場と考えられるのに強制的に併合されてしまいます。この場合には,変数単位の選択・除去,もしくはカテゴリー区分の仕方の変更が解決法になるかと考えています。ただ,カテゴリー区分の変更は,実際にやると計算量の増加と主観的にカテゴリーを区分することになるという問題がありそうです。

(次に続きます)

     [このページのトップへ]


9312. Re^3: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸  2006/02/03 (金) 21:27
> まず一つ目は,不要になったカテゴリーを併合してしまうこと自体の課題です。対象生物の生態を考えると,植生DとEは質の異なる生息場と考えられるのに強制的に併合されてしまいます。この場合には,変数単位の選択・除去,もしくはカテゴリー区分の仕方の変更が解決法になるかと考えています。ただ,カテゴリー区分の変更は,実際にやると計算量の増加と主観的にカテゴリーを区分することになるという問題がありそうです。

単純なステップワイズ変数選択は,変数の意味までは考えないので,理論的に考えると明らかに不合理な変数選択でも,何のためらいもなくやってくれます。

この意味でも,ステップワイズ変数選択はあくまでも参考であって,理論的に考えた変数セットで解を導くべしというゴールデンルールがあるんでしょう。

     [このページのトップへ]


9311. Re^3: ロジスティック回帰でのダミー変数の扱いについて tyukiko  2006/02/03 (金) 20:19
(続きです)
もう一つの問題は,
  植生A:(Da,Db,Dc,Dd)=(1,0,0,0)
  植生B:(Da,Db,Dc,Dd)=(0,1,0,0)
  植生C:(Da,Db,Dc,Dd)=(0,0,1,0)
  植生D:(Da,Db,Dc,Dd)=(0,0,0,1)
  植生E:(Da,Db,Dc,Dd)=(0,0,0,0)
とダミー変数をおいた場合と,
  植生A:(Da,Db,Dc,Dd)=(0,0,0,0)
  植生B:(Da,Db,Dc,Dd)=(1,0,0,0)
  植生C:(Da,Db,Dc,Dd)=(0,1,0,0)
  植生D:(Da,Db,Dc,Dd)=(0,0,1,0)
  植生E:(Da,Db,Dc,Dd)=(0,0,0,1)
とおいた場合で選択される変数が異なる場合があるということです。
植生は名義変数なので,どの植生に対して(0,0,0,0)を割り当ててもよいはずです。しかし,実際に変数選択をすると上の場合では植生AとBが,下の場合では植生DとEが選択されることがありました。
この場合,どの植生を(0,0,0,0)に割り当てるか,A〜Eのそれぞれについて試してAIC等で最適な回帰を考えないといけないのでしょうか。

この問題についてお分かりになる方がいらっしゃいましたら,よろしくお願い致します。

     [このページのトップへ]


9313. Re^4: ロジスティック回帰でのダミー変数の扱いについて 青木繁伸  2006/02/03 (金) 21:31
> とおいた場合で選択される変数が異なる場合があるということです。

これはアルゴリズムの問題でしょう(たぶん)

追加・削除する変数の候補を探索する場合,もしたまたま同じ基準値になる変数がある場合(例数が少ない場合などはそのような確率が低くはないかも),最初に見つかった変数を対象にするか,最後に見つかった変数を対象にするかで当然結果が変わってきますね。

このようなことが起こる例としてほかにはクラスター分析があるとおもいます。同じ距離が複数ある場合に,どのクラスターを先に併合するかで結果が異なってくることがあります。これは,統計プログラム間の結果の違いと言うことでしばしば問題になります。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 037 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る