「統計学関連なんでもあり」の過去ログ--- 042

No.07702　判別分析の項目選択について　　【はる】　2008/09/22(Mon) 15:28

はじめまして。お願いします。

現在，疾病群と健常群のデータを元に，判別分析を行おうと思っています。

疾病群と健常群を判別するための説明変数が60項目あり，どの項目も，疾病群と健常群間において，平均値に有意な差（Student's t-test）がありました。
そこで，変数増減法を使用して判別分析を行ったところ，30項目が選択されました。
判別的中率，相関比はよいのですが，項目数が多く，将来的に活用しづらいため，説明変数をもう少しへらすことができたらと考えています。

(1) 2群間の平均値に有意な差がある変数を用いる
(2) ステップワイズ法を使用する
他に，変数を選択する方法はありますでしょうか。

No.07703　Re: 判別分析の項目選択について　　【青木繁伸】　2008/09/22(Mon) 15:42

SPSS でやっているなら，Fin/Fout の敷居を上げればよいのでは？（Pin/Pout なら，下げる）。

No.07704　Re: 判別分析の項目選択について　　【はる】　2008/09/22(Mon) 16:21

青木先生，早速のお返事ありがとうございます。

＞Fin/Fout の敷居を上げればよいのでは？（Pin/Pout なら，下げる）。

Fin/Foutを高く定めれば，確かに説明変数は減少するとは思うのですが，Fin/Foutの境界は，どこまで研究者が定めてもよいのでしょうか。
Fin/Foutがそのまま変数を除外する基準となるにもかかわらず，書籍を見ましても，「2．0を用いることが多いようです」と曖昧でした。
なぜ，そこで区切るのかという説明などは必要ないのでしょうか。

No.07707　Re: 判別分析の項目選択について　　【青木繁伸】　2008/09/22(Mon) 16:44

Fin/Fout は自由度の変化を無視しているし，書かれているようにその意味するところがはっきり伝わっていないのですね。Pin/Pou で説明すると，たとえば，pin=Pout=0.01 とすると，最終的に判別関数に取り入れられる変数の判別係数が0であるかどうかの検定結果のP値が 0.01 以下になるということです。F値からP値に変換するときに，F分布の自由度によりおなじF値でもP値は異なります。第1自由度は[群の数-1]，第2自由度は[データ数-群数-使用する変数の個数]になります。まあ，変化の度合いは違うといえ，ステップワイズ変数選択では第2自由度はあるステップにおいて使用される変数の個数により変わるわけで，同じF値を指定しても実際にP値として使用する場合には首尾一貫していないと言うことになるわけです。ちょっと計算してみると，2群判別でデータ数が100のとき，3変数を組み入れた段階で F=2 は，自由度が（1, 95) ですから，P 値は 0.16 ですね。有意とは言えない変数を取り入れることになるということが明らかでしょう。分布の関係から言えば，F=4 程度で P=0.05 に近くなるということ（ですが，Pin/Pout を指定すれば近似などする必要はないのだが）。

「Fin/Fout で2が使われることが多い」というのは確かに，根拠がはっきりしませんね。なお，SPSSでは，Fin/Fout のデフォルトは 1 ではなかったですか。

それはともかく，Fin/Fout でも Pin/Pout でも，使用者が決めて良いのですよ。すくなくとも，デフォルトの 2 や 1 を使うのではなくこの値を使うのだという積極的な意志があるほうが良いと思いますね。

No.07709　Re: 判別分析の項目選択について　　【はる】　2008/09/22(Mon) 17:33

青木先生，大変ありがとうございました。

確かにF値は同じでも，項目数を変えてしまえば，自由度が変化して，P値が変わってしまいますものね。

丁寧な説明を頂き，よく分かりました。
早速，行ってみたいと思います。ありがとうございました。