「統計学関連なんでもあり」の過去ログ---013

★ 判別分析の変数選択 ★

　246　判別分析の変数選択　　あき　　2001/04/15 (日) 23:45
　　247　Re: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 10:40
　　　248　Re^2: 判別分析の変数選択　　あき　　2001/04/16 (月) 15:48
　　　　249　Re^3: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 16:24
　　　　　251　Re^4: 判別分析の変数選択　　あき　　2001/04/17 (火) 14:09
　　　　　　257　Re^5: 判別分析の変数選択　　あき　　2001/04/18 (水) 14:01
　　　　　　　258　Re^6: 判別分析の変数選択　　青木繁伸　　2001/04/18 (水) 16:31
　　　　　　　　259　Re^7: 判別分析の変数選択　　あき　　2001/04/18 (水) 17:28
　　　　　　　　　260　Re^8: 判別分析の変数選択　　青木繁伸　　2001/04/18 (水) 17:55
　　　　　　　　　　261　Re^9: 判別分析の変数選択　　あき　　2001/04/18 (水) 21:46
　　　　　250　Re^4: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 16:26

246.　判別分析の変数選択　　あき　　2001/04/15 (日) 23:45

判別分析における変数選択についてお聞きします。

(1)「ステップワイズ変数選択法」というのは，重回帰分析でいうところの「変数増減法」と考えてよろしいでしょうか?
(2)「ステップワイズ変数選択法」は，線形判別が行えない場合，即ち判別する2群の(母)分散共分散行列が等しくない場合にも適用できるのでしょうか?
(3) SPSSの判別分析は，線形判別ができない場合でもちゃんと(境界線が2次曲線となるような)判別分析をしてくれてるんでしょうか?

以上の3点ですが，教えていただけないでしょうか。
よろしくお願いいたします。
(ここでは質問させていただいてばかりですが…。)

　　　　　[このページのトップへ]

247.　Re: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 10:40

> (1)「ステップワイズ変数選択法」というのは，重回帰分析でいうところの「変数増減法」と考えてよろしいでしょうか?

いいえ，変数増減法，変数減増法，変数増加法，変数減少法などの総称です。
要するに，段階的に変数を選択する方法ということですから。

> (2)「ステップワイズ変数選択法」は，線形判別が行えない場合，即ち判別する2群の(母)分散共分散行列が等しくない場合にも適用できるのでしょうか?

できます。使おうとしているプログラムが対応していればですが。

> (3) SPSSの判別分析は，線形判別ができない場合でもちゃんと(境界線が2次曲線となるような)判別分析をしてくれてるんでしょうか?

さ～。明示的に指定しないとできないのでは?

　　　　　[このページのトップへ]

248.　Re^2: 判別分析の変数選択　　あき　　2001/04/16 (月) 15:48

> > (2)(詳細略)
>
> できます。使おうとしているプログラムが対応していればですが。
>
> > (3) (詳細略)
>
> さ～。明示的に指定しないとできないのでは?

名無しさん，ありがとうございました。
私は現在SPSSを使っているのですが，(2)，(3)について，使っていてふと気になったもので。あとはSPSS社に直接問い合わせてみようと思います。でも，もしそのへんの事情について既にご存知の方がいらっしゃれば，教えていただけるととても嬉しいです。
ところで，従属変数だけでなく，説明変数も全て質的データである場合，ダミー変数を使った判別分析を行うと思います。そこで，説明変数が全て0/1のダミー変数の場合，判別する2群の分散共分散行列が異なるなんてことはない，つまり，ダミー変数を使った判別分析は常に線形判別ができる，というふうに思えるのですが，その考えは間違ってないでしょうか?
説明変数が2値しか取りえない場合の「分散」って，ちょっと想像つかないのですが・・・。アドバイス，お願いいたします!!

　　　　　[このページのトップへ]

249.　Re^3: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 16:24

> ところで，従属変数だけでなく，説明変数も全て質的データである場合，ダミー変数を使った判別分析を行うと思います。そこで，説明変数が全て0/1のダミー変数の場合，判別する2群の分散共分散行列が異なるなんてことはない，つまり，ダミー変数を使った判別分析は常に線形判別ができる，というふうに思えるのですが，その考えは間違ってないでしょうか?
> 説明変数が2値しか取りえない場合の「分散」って，ちょっと想像つかないのですが・・・。

二値データの平均値・分散と比率についてはおもしろい（当たり前な）関係があります。

変数の撮る値を0と1にします。
平均値は，「1の値を取るデータの割合」に等しくなります。
分散（不偏分散でないほう）は，「1の値を取るデータの割合×0の値を撮る割合」に等しくなります。

よって，各群で割合が異なれば，分散・共分散行列は異なります。

　　　　　[このページのトップへ]

251.　Re^4: 判別分析の変数選択　　あき　　2001/04/17 (火) 14:09

名無しさん，ふたたびありがとうございます。

> 二値データの平均値・分散と比率についてはおもしろい（当たり前な）関係があります。
>
> 分散（不偏分散でないほう）は，「1の値を取るデータの割合×0の値を撮る割合」に等しくなります。

・・・しまった!そうでしたよね。あー，こんなことも忘れてたなんて!!確かに「当たり前」のレベルでした，すいません・・・。

> よって，各群で割合が異なれば，分散・共分散行列は異なります。
> だからといって，線形判別関数を使っていけないと言うことではない。

このへんについては，自分で確かめてみようと思います。
(たぶん，「分散・共分散行列は厳密には等しくならない場合があるが，分散・共分散行列の同等性検定の観点からは，“等しくないとは言えない”程度の範囲内に収まっている・・・」なんてあたりじゃないかな，と思っています。さて，どうでしょう!?)

　　　　　[このページのトップへ]

257.　Re^5: 判別分析の変数選択　　あき　　2001/04/18 (水) 14:01

すいません，判別分析(重回帰分析)における変数選択法について，新たな疑問が出てきました。
判別(予測)に「役に立つ/立たない」という評価をもとに，変数の選択，出し入れをしていく作業だ，というように理解してはいるのですが，その「役に立つ/立たない」の基準がはっきり分からないのです。というのは，このサイトの説明では，

A.「判別に有効な説明変数（外的基準変数との相関係数が最も大きいもの）を判別式に取り入れる」

とあります。
(http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc3.htmlより）
しかし一方で，次のような説明も耳にします。

B.「偏回帰係数の有意性(偏F値，t値)を評価して，モデルに取り入れる/追い出すの判断を行う」

(http://www.kaneko-lab.org/mva/chap9/，芝・南風原「行動科学における統計解析法」など)
このAとBとは，考え方の異なる方法なんでしょうか?それとも，見た目は違うけどもやってることは同じ，なんでしょうか??
分かりやすくご教示いただければと思います。

　　　　　[このページのトップへ]

258.　Re^6: 判別分析の変数選択　　青木繁伸　　2001/04/18 (水) 16:31

このサイトの説明では，
>
> A.「判別に有効な説明変数（外的基準変数との相関係数が最も大きいもの）を判別式に取り入れる」
>
> とあります。
> (http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc3.htmlより）

変数増加法の項で，

最初に最も判別に有効な説明変数（外的基準変数との
～～～

相関係数が最も大きいもの）を判別式に取り入れる。

次の段階では，...
～～～～～～

と書いてあります。

最後に，

説明変数の追加・除去の基準としては，各変数の偏 F 値に基づく Fin，Fout，それを有意確率に換算したPin，Pout がある。いずれも，各説明変数の判別係数の有意性検定と関連しており，後者で例えば Pin = Pout = 0.05 を指定するということは，最終的な判別式に含まれる全ての説明変数の判別係数が 0 であるという帰無仮説が有意水準 5 % で棄却されるということを意味する。

　　　　　[このページのトップへ]

259.　Re^7: 判別分析の変数選択　　あき　　2001/04/18 (水) 17:28

青木繁伸さん(青木先生，が適切でしょうか!?)，ご回答ありがとうございます。
>
> 説明変数の追加・除去の基準としては，各変数の偏 F 値に基づく Fin，Fout，それを有意確率に換算したPin，Pout がある。いずれも，各説明変数の判別係数の有意性検定と関連しており，後者で例えば Pin = Pout = 0.05 を指定するということは，最終的な判別式に含まれる全ての説明変数の判別係数が 0 であるという帰無仮説が有意水準 5 % で棄却されるということを意味する。

・・・ということは，数ある説明変数のうちで追加・除去の対象に挙げる(俎上にのせる!?)際の“順番”を，従属変数との相関係数の大小で決め，そして，順番が回ってきた説明変数を“本当にモデルの中に追加するか(モデルから除去するか)”を判断する基準については，偏F値やt値の大きさ(偏F値2以上とか)で決める，というふうに解釈してよいのでしょうか??
（表現が庶民的で申し訳ありません・・・。(^^;)）

　　　　　[このページのトップへ]

260.　Re^8: 判別分析の変数選択　　青木繁伸　　2001/04/18 (水) 17:55

すみませんが，あのページをよく読んでください。

変数増加法で最初に取り入れる変数はたまたまというか，結果的に従属変数と相関の最も強い変数であるということです。
しかし，最初と，二番目以降の変数の追加判定には，区別する必要は何もなくて，実際は，偏F値（あるいはそれを変換したP値）を使うという統一的な基準を使います。

変数増減法を例に取ると，

まず全ての変数について，その変数を追加したときの偏F値を計算し，基準以上でかつ最も大きいものを入れます。
入れたばかりなので，除去されることはないけど，一応後のステップとの整合性から言えば，モデルに含まれている変数（今はまだ一つしかない）を除いたときの偏F値を計算して，基準以下のものがあれば除きます。

第二段階は，まだ取り入れられていない変数について，その変数を追加したときの偏F値を計算し，基準以上でかつ最も大きいものを入れます。
次に，モデルに含まれている変数を除いたときの偏F値を計算して，基準以下のものがあれば除きます。

以下この繰り返しです。

　　　　　[このページのトップへ]

261.　Re^9: 判別分析の変数選択　　あき　　2001/04/18 (水) 21:46

> すみませんが，あのページをよく読んでください。

はい，ほんとに申し訳ありません・・・。

> 変数増加法で最初に取り入れる変数はたまたまというか，結果的に従属変数と相関の最も強い変数であるということです。
> しかし，最初と，二番目以降の変数の追加判定には，区別する必要は何もなくて，実際は，偏F値（あるいはそれを変換したP値）を使うという統一的な基準を使います。

なるほど!「たまたま」ないしは「結果的」だったんですね。ようやく胸のモヤモヤが晴れました。この部分の記述(特に「相関係数」という言葉)を，他のテキストの説明とどうすり合わせて考えたらいいのかなぁ，ってずっと思ってたのですが，なかなか適当なテキストやうまく説明してくれる人にめぐりあえなかったもので・・・。
ありがとうございました。これでぐっすり眠れそうです。

　　　　　[このページのトップへ]

250.　Re^4: 判別分析の変数選択　　名無しさん　　2001/04/16 (月) 16:26

> よって，各群で割合が異なれば，分散・共分散行列は異なります。

だからといって，線形判別関数を使っていけないと言うことではない。

ダミー変数を使った線形判別関数=数量化 II 類なのだから，そのような場合に数量化 II 類が使えないという話は聞いたことがないですからね。

　　　　　[このページのトップへ]