「統計学関連なんでもあり」の過去ログ--- 044

No.14131　ロジステック回帰分析の適合度　　【ai】　2011/01/07(Fri) 20:57

重回帰分析では自由度調整済みの重相関係数の 2 乗が 0.7 ～ 0.8 程度以上でなければ予測には役立たない，と青木先生は書いていらっしゃいますが，ロジスティック回帰分析の場合はどうなりますでしょうか。

ロジスティック回帰分析の適合度の指標には，Deviance，Cox&Snell R^2，Nagelkere R^2，HosmerとLemeshowの検定などがあるようですが，これらのうちどの指標がどの程度の値でしたら，予測に役立つと判断できますでしょうか。

ご指導よろしくお願い致します。

No.14132　Re: ロジステック回帰分析の適合度　　【青木繁伸】　2011/01/07(Fri) 21:09

> 0.7 ～ 0.8 程度以上でなければ予測には役立たない，と青木先生は書いていらっしゃいますが

確かにそうは描いてありますし，まあ，そう多くの反論はないでしょうけど，これも固有科学の問題で，場合によっては 0.95 でも不足，場合によっては 0.5 でも十分ということもあるでしょう。

ロジスティック回帰分析の場合も同じです。色々な指標があって，どれを採用すればよいか迷ってしまうということもありますけど，正しい予測の割合（正判別率）を参考にするのが一番でしょう。

No.14133　Re: ロジステック回帰分析の適合度　　【ai】　2011/01/07(Fri) 21:32

青木先生，早速ご返信頂きありがとうございました。
正判別率を参考にするように致します。
ありがとうございました！

No.14250　Re: ロジステック回帰分析の適合度　　【ai】　2011/01/28(Fri) 00:03

アドバイス頂いたように正判別率で結果を解釈しようと思ったのですが，またつまづいてしまい投稿させて頂きました。

正判別率の算出方法ですが，pの予測値が0.5よ大きければ1，0.5より小さければ0に分類し，元データにおける1/0との対応を見るということで正しいでしょうか？私は今までこの方法で良いと思っていたのですが，少し混乱してきてしまいました。

例えば年齢xから未婚率pを予測するロジスティック回帰分析をするとします。データにおいて30歳の人が10人いて，そのうちの4人が未婚，6人が既婚であるとすると未婚率p=0.4となります。仮にロジスティック回帰分析の結果適合度の非常に良い予測曲線が算出でき，xに30を代入するとpの予測値=0.4が得られたとします。するとpの予測値は0.5より小さいので「未婚でない」に分類されると思いますが，10人とも未婚でないに分類されてしまいます。すると元データでは未婚でない（既婚）であった6人も「未婚でない」に分類されてしまいます。pの予測値は完全に正しいのにこのように判別がうまくいかないのはなぜでしょうか。

分かりにくい説明で申し訳ありません。
度々で恐縮ですがよろしくお願い致します

No.14251　Re: ロジステック回帰分析の適合度　　【青木繁伸】　2011/01/28(Fri) 00:30

> pの予測値は完全に正しいのにこのように判別がうまくいかないのはなぜでしょうか。

p は連続値，予測は二値（0/1）だからでしょう。x=30 の人をあなたは 0.4 の確率で未婚でしょうと予測するなら正しいでしょう。でもそれは未婚か既婚かの予測ではないですよね。

No.14252　Re: ロジステック回帰分析の適合度　　【ai】　2011/01/28(Fri) 00:52

青木先生，早速ご返信頂きありがとうございます。

> p は連続値，予測は二値（0/1）だからでしょう。x=30 の人をあなたは 0.4 の確率で未婚でしょうと予測するなら正しいでしょう。でもそれは未婚か既婚かの予測ではないですよね。

そうしますと，未婚か既婚かの予測はどう行ない，どう正判別率を算出すれば良いのでしょうか。。。
SPSSを利用して結果を算出したのですが，SPSSは連続値であるpが0.5以上か以下かで二値（0/1）の予測に変換して正判別の分類表を作成しているように思えます。これは望ましくない方法ということになりますでしょうか。

よろしくお願い致します。

No.14253　Re: ロジステック回帰分析の適合度　　【青木繁伸】　2011/01/28(Fri) 07:00

> SPSSを利用して結果を算出したのですが，SPSSは連続値であるpが0.5以上か以下かで二値（0/1）の予測に変換して正判別の分類表を作成しているように思えます。

それでよいといっているのですけど？
「ある人を0.4 の確率で未婚でしょうと予測するのではない」といっているのですから。

No.14260　Re: ロジステック回帰分析の適合度　　【ai】　2011/01/28(Fri) 17:48

青木先生，ご回答頂きありがとうございます。

データのイメージとしては以下の通りで，xとyのロジスティック回帰分析を行なうと，SPSSでは新しく「予測された確率」と「予測されたグループ」という変数が各行に作成されます。
x=30の行は「予測された確率」が0.4になり，従って全員が0に分類されてしまいます。これは「ある人を0.4の確率で未婚でしょう」と予測していることになってしまい，不適切に思えてしまうのですが。。。
x     y  予測された確率　予測されたグループ
30   1        0.4             0
30   1        0.4             0
30   1        0.4             0
30   1        0.4             0
30   0        0.4             0
30   0        0.4             0
30   0        0.4             0
30   0        0.4             0
30   0        0.4             0
30   0        0.4             0
先生のご発言をきちんと理解できておりませんでしたら，申し訳ありません。
よろしくお願い致します。

No.14262　Re: ロジステック回帰分析の適合度　　【青木繁伸】　2011/01/28(Fri) 18:36

何をどうこだわっているのかよく分かりませんが，確率としては 0.4 と予測し，0.5 より小さい者を未婚と予測しているのでしょう。実際には既婚のものを未婚として誤判別しているということでしょう。それでよいのでは。

No.14263　Re: ロジステック回帰分析の適合度　　【ai】　2011/01/28(Fri) 20:28

青木先生，ご回答ありがとうございます。
説明が下手で申し訳ありません。

「ロジスティック回帰分析の適合度は正判別率で見るとよい」というアドバイスを青木先生から頂きましたが，上記のデータを正判別率で見ると60%と低い値になってしまいます。「x=30の時にy=1となる確率は0.4」と完璧に予測しているのにこのように低い正判別率になってしまうのはおかしい気がしてしまいます。そこで上記のような正判別率の求め方は間違っているのかなと思ったのですが，そのようなことはありませんでしょうか。

何度も申し訳ありませんがよろしくお願い致します。