★ 判別率の比較 ★
7497. 判別率の比較 けい 2005/08/22 (月) 00:26
└7498. Re: 判別率の比較 kzkishi 2005/08/22 (月) 19:42
└7500. Re^2: 判別率の比較 けい 2005/08/22 (月) 21:03
└7501. Re^3: 判別率の比較 にゃんちゅう 2005/08/22 (月) 23:04
7497. 判別率の比較 けい 2005/08/22 (月) 00:26
初めて投稿します
判別関数分析の判別率の解釈についての質問です。
判別率はサンプル数,および分類群の数に影響されやすい値なので,サンプルの数がそろっていないときは,「ある変数群がより判別がすぐれている」と主張するのは難しい気がします。
例えば,「ある変数群を用いると判別率が60%だが他の変数群を使うと98%」,といったような明確な場合は判別率の比較は有効だと思いますが,比較する判別率が88%と92%などと微妙な結果が得られたときはどうなるのでしょうか?
解釈として「どちらの変数群も判別する上で有用な指標となりえるが前者の変数群がよりよく分類に貢献している」,という解釈は正しいでしょうか?また様々の場合の判別率の比較を統計的に行うことは可能なのでしょうか?
=====
ひとつ問題として以下のような場合に直面しています
例えばA国,B国,C国から被験者を募り身体検査をするとします。身体検査項目は身長,体重,など30の項目を測定したとします(30変数)。その30変数をもとに判別分析を行い被験者の出身国を当てることができるかという問題を考えます。
ここで被験者は以下のように集まったとします
1)男性大人 A国 20人 B国10人 C国10人
2)女性大人 A国 10人 B国15人 C国10人
3)男性幼児 A国 10人 B国20人 C国10人
4)女性幼児 A国 30人 B国10人 C国10人
(被験者が不ぞろいがポイントです)
4つの被験者群に対してそれぞれ判別分析したところ,判別率は1)95%,2)92%,3)88%,4)86%となったとします。この結果から分かることは,
「30変数により良い精度で判別を行える」まではいいのですが,「この30変数は男性大人に関してもっとも有効で,女性幼児に関しては精度が落ちる」,とか「男性大人の群間差(国の差)がもっとも大きくなっている」などということがいえたりできるのでしょうか?
結局,様々な判別率の比較を行いたいということなのですが,それを行う統計的な方法,大体その妥当性はあるのでしょうか?
分かりにくい質問で申し訳ありません
|
[このページのトップへ]
7498. Re: 判別率の比較 kzkishi 2005/08/22 (月) 19:42
まず4つの被験者群で同じ判別式なのか否か,が気になりますね。
それから,判別率で何かを言うのは危険だと思いますよ。
そのデータセットだけの結果ですし(文面からは判別式を導いたデータセットと判別率を求めているデータセット,同じなのだと思いますが)。
感度・特異度が最も高くなる設定の時だけの比較になってしまいますし。
仮に同じ判別式を用いていて,かつ判別式を導くのとは別のデータセットで計算するなら,各被験者群で判別得点についてのAUC(A国対B国,B国対C国,C国対A国)のジャックナイフ95%信頼区間でも求めたら,何か言えるかもしれませんが…。
でもそれって判別式についての情報であって,各変数がどうとかは言えないことになるかな…。
あれ,でもよく読むと投稿の前段と後段で質問の内容が違いますね。
前段は各変数の寄与率を聞いていて,後段は判別式の汎化性能を聞いていませんか?
|
[このページのトップへ]
7500. Re^2: 判別率の比較 けい 2005/08/22 (月) 21:03
返信有難うございます。
> まず4つの被験者群で同じ判別式なのか否か,が気になりますね。
> それから,判別率で何かを言うのは危険だと思いますよ。
やはりそうですよね。。
> あれ,でもよく読むと投稿の前段と後段で質問の内容が違いますね。
> 前段は各変数の寄与率を聞いていて,後段は判別式の汎化性能を聞いていませんか?
ちょっ
と話が複雑になりすぎていました。結局今回知りたかったのは判別率の違いが意味するところです。検討項目は例にあるケースで「各被験者群すべてにおいて群
間差(国の違い)がみられる」が「群間差の程度は被験者群間で異なる」ということで,これが判別分析から考察可能かということなのです。
この手の
分析は本来,被験者群を固定効果,出身国を変量効果とした混合モデルの分散分析になったりするのだと思いますが,やってはみたものの結果の解釈があまりに
難しく断念しました。そこで30変数を用いて実際に群間差(国の差)が表現できるのか
->30変数を用いて正しく分類できるのかを検討してみたところ,確かに判別率は高く分類はできるということになったのです。
そこ
で判別率を眺めてみると4つの被験者群で判別率に差がある,さらにデータの印象どおり群間差(国の差)が比較的小さいと思われたところでは判別率が悪く
(例で言うところの幼児被験者群),群間差(国の差)が比較的頑健で大きなところは判別率が良い(例の大人被験者群)ということに注目し,これは私の言う
ところを示しているのではないか?と考えたのです。
しかし,結局依然として判別率の解釈は判然としないのでこの分析は採用する気にはならなかったのですが,実際ご指摘を受けて少しがっかりです。
|
[このページのトップへ]
7501. Re^3: 判別率の比較 にゃんちゅう 2005/08/22 (月) 23:04
>
ちょっと話が複雑になりすぎていました。結局今回知りたかったのは判別率の違いが意味するところです。検討項目は例にあるケースで「各被験者群すべてにお
いて群間差(国の違い)がみられる」が「群間差の程度は被験者群間で異なる」ということで,これが判別分析から考察可能かということなのです。
統計学的にしっかりした分析が欲しいということでしょうか。単に目安をつけることができればいいということでしょうか。
統計学的にはすでに指摘のある,Jackknifeをやってみるということになるでしょう。Jackknifeをすれば信頼区間を求めることができます。ま,同一サンプルの使用変数だけの違いで厳密に有意な違いかどうかはだせないでしょうから,目安程度には使えるのでは。
もっと簡単に目安を考えるなら,正判別率から信頼区間を求めればいいのでは。
サンプルサイズによりますが,パーセンテージデータで数%の違いは大抵意味はないですよね。
|
[このページのトップへ]
● 「統計学関連なんでもあり」の過去ログ--- 034 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る