No.08948 ロジスティック回帰分析  【M_O】 2009/01/19(Mon) 16:18

教えてください。ロジスティック回帰分析の説明変数の数は,25項目以上でもよいのでしょうか?

No.08949 Re: ロジスティック回帰分析  【青木繁伸】 2009/01/19(Mon) 17:22

何個でも良いでしょう。
ただし,理論的に言えば,データ数より1個少ない数までしか使えません。100個のデータがあったら,99個までは使えるということ。
た だし,安定したよい結果を得るためにはデータ数は多くなければなりません。独立変数1個あたりデータ10組などという説もあるようですが,それに従うと, 独立変数25個なら,データは250組必要だということです。しかし,一般的に言えば250組というのでは少ないだろうと思います。
採取できるデータに数の限りがある場合には,そのような基準に従うことは難しいこともあるでしょうが,そのような場合には結果に限界があることを意識する必要があるでしょう。

No. 8654 からのスレッドも参考にすると良いでしょう。

No.08950 Re: ロジスティック回帰分析  【M_O】 2009/01/19(Mon) 17:34

ありがとうございました。早速,No. 8654 も参考にして,研究を進めていきたいと思います。

No.08951 Re: ロジスティック回帰分析  【M_O】 2009/01/19(Mon) 18:13

すみません,もう一つ質問があります。25項目を,2(A,B群)×2(Yes,no)のクロス集計で,χ二乗検 定すると,いくつかの項目で有意差がありました。ところが,χ二乗検定で有意差がない項目が,ロジスティック回帰分析で有意な差がありました。こういうこ とはあるのでしょうか?ある項目では,A群,B群ともにYesと回答したものは,60%です。

No.08953 Re: ロジスティック回帰分析  【青木繁伸】 2009/01/19(Mon) 18:34

> クロス集計で,χ二乗検定すると,いくつかの項目で有意差がありました。ところが,χ二乗検定で有意差がない項目が,ロジスティック回帰分析で有意な差がありました。こういうことはあるのでしょうか?

これも FAQ です。
単変量の結果を幾つ積み上げても多変量解析にはなりません。
変数は全て同時に考慮しないといけません。それが多変量解析というものです。

No.08955 Re: ロジスティック回帰分析  【M_O】 2009/01/19(Mon) 18:44

ありがとうございました。一つの項目ではなく,すべての項目を考慮した方程式で目的変数が説明されるということでよいでしょうか。Yesという割合がA,B群で同じなのに,多変量ですると有意に確率が異なり関連しているというのが,ピンときませんが,いいのでしょうか?

No.08956 Re: ロジスティック回帰分析  【青木繁伸】 2009/01/19(Mon) 18:52

> ピンときませんが,いいのでしょうか?

単変量解析の結果は分かりやすいので,ピンと来るでしょうが,多変量解析の結果は複雑なのでわかりにくいのは確かでしょう。

1変量データの分布状況なら,平均値や標準偏差を求めたりすれば分かりますが,ヒストグラムを描けばピント来るでしょう(一目瞭然)。
2変量データの分布状況なら,散布図を描けば分かるでしょう。
しかし,3変量データなら,なかなか一目瞭然とはいきません。
4変量データ以上なら,どのように分布しているか想像することが出来ません。相関係数行列を眺めても無理。図にすることは不可能。

No.08958 Re: ロジスティック回帰分析  【青木繁伸】 2009/01/19(Mon) 19:41

以下のような例を作ってみました。
   y  x   f
1 a 88 no
2 a 71 no
3 a 85 no
4 a 78 no
5 a 49 yes
6 a 40 yes
7 a 51 yes
8 a 44 yes
9 a 40 yes
10 a 56 yes
11 b 93 no
12 b 77 no
13 b 94 no
14 b 83 no
15 b 52 yes
16 b 58 yes
17 b 61 yes
18 b 52 yes
19 b 49 yes
20 b 57 yes

> table(d$y, d$f) # a, b 群で yes/no の割合は全く同じ。

no yes
a 4 6
b 4 6

> summary(glm(y~x+f, data=d, family=binomial))

Call:
glm(formula = y ~ x + f, family = binomial, data = d)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.61817 -0.81615 0.05119 0.81907 1.76718

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -16.50410 7.94036 -2.079 0.0377 *
x 0.19712 0.09416 2.093 0.0363 *
fyes 6.45994 3.25448 1.985 0.0472 * # なのに,f が有意
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 21.340 on 17 degrees of freedom
AIC: 27.34

Number of Fisher Scoring iterations: 4
何故そのような結果になったか,データを見ただけで分かりますか?
このデータでは,実は,x 自体が f と関係しているのです。
y       f   データ数    平均値  標準偏差
a no 4 80.500 7.594
a yes 6 46.667 6.439
b no 4 86.750 8.180
b yes 6 54.833 4.535
全体 20 63.900 17.991
その結果として,x と同様fも有意になったということ。
なお,この場合,x だけを使った場合には,x は有意ではないことになっております。
> summary(glm(y~x, data=d, family=binomial))

Call:
glm(formula = y ~ x, family = binomial, data = d)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.43954 -1.05896 -0.02944 1.21492 1.33614

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.57646 1.74873 -0.901 0.367
x 0.02471 0.02653 0.931 0.352

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 26.824 on 18 degrees of freedom
AIC: 30.824

Number of Fisher Scoring iterations: 4
もちろん,f だけを使った場合も,問題外。

No.08961 Re: ロジスティック回帰分析  【M_O】 2009/01/19(Mon) 21:33

丁寧に解説していただきありがとうございます。ものすごくよくわかりました。頑張って研究を進めます。またよろしくお願いします。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る