No.11154 Re: ロジスティック回帰分析についてですが。 【surg】 2009/10/30(Fri) 09:56
> 再度ロジスティック回帰分析についてですが,独立変数の選択は単変量解析においてp<0.25やp<0.1,p<0.05などありますがどれを採択するのが望ましいのでしょうか?
青木先生も仰っているように,単変量解析の結果でモデルを選択する方法は間違っています.モデルの選択は各モデルのデビアンスの尤度比検定(あるいはスコア検定,Wald検定),あるいはAICの比較により行うべきです.
>またN数は独立変数の10倍程度必要とのことですが満たさない場合は信頼性が低いのでしょうか?
「信頼性」は問題ないでしょう.推定値の信頼区間が広くなったり,検定で有意差が認められにくかったりするだけです.
No.11155 Re: ロジスティック回帰分析についてですが。 【青木繁伸】 2009/10/30(Fri) 11:13
> N 数は独立変数の10倍程度必要とのことですが
この基準は,特定の所が発信源のようですが,
http://www.ibaraki-kodomo.com/toukei/logis.html
「数学いらずの医科統計学」では独立変数に対して,最低5から10の事象が必要という。
もし,独立変数が4つなら,40例のデータ(10個でも100例ですよ)で十分ということになってしまいます。医療関係の場合には40例でも集めにくいんだよとか,有意性が認められにくくなったりという前に,そんなにすくなくてよいと思いますか?
過去ログ
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc042/10221.html
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc042/08516.html
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc025/075.html
=====
"sample size for logistic regression" をキーワードにして検索してみてください。
http://www.statsoft.com/textbook/stmulreg.html
では,10〜20倍ということになっています。
でも,これは Multiple regression の場合で,,,,
よくよく調べると,
http://sci.tech-archive.net/Archive/sci.stat.math/2007-06/msg00086.html
で,
in logistic regression I need at least 10 observation per predictor variable and the sample size that must be considered is the smallest number between the events and the non-events, for example if I have 1000 observations but only 50 events my sample size is 50 so I "can" use about 5 predictors.
というコメントがありますね。
「1000例のデータがあるが,終末事象は50例しかないので,5つの独立変数が使ええる」と述べていますね。can にクオーテーションマークが付いている。
また,ダミー変数の数え方についてもコメントされている。
https://www.ats.ucla.edu/stat/seminars/Intro_power/default.htm
長いページで,関連部分も長いが,引用
For an ordinary least squares regression, you would need to know things like the R2 for the full and reduced model. For a simple logistic regression analysis with only one continuous predictor variable, you would need to know the probability of a positive outcome (i.e., the probability that the outcome equals 1) at the mean of the predictor variable and the probability of a positive outcome at one standard deviation above the mean of the predictor variable. Especially for the various types of logistic models (e.g., binary, ordinal and multinomial), you will need to think very carefully about your sample size, and information from a power analysis will only be part of your considerations. For example, according to Long (1997, pages 53-54), 100 is a minimum sample size for logistic regression, and you want *at least* 10 observations per predictor. This does not mean that if you have only one predictor you need only 10 observations. Also, if you have categorical predictors, you may need to have more observations to avoid computational difficulties caused by empty cells. More observations are needed when the outcome variable is very lopsided; in other words, when there are very few 1s and lots of 0s, or vice versa. These cautions emphasize the need to know your data set well, so that you know if your outcome variable is lopsided or if you are likely to have a problem with empty cells.
http://gerontologist.gerontologyjournals.org/cgi/reprint/48/2/170.pdf
A simulation study by Peduzzi and colleagues (1996) showed that sample sizes of 5 to 10 events per variable included in a regression equation
少なくとも,全数ではなく "event" の数のようですね
No.11156 Re: ロジスティック回帰分析についてですが。 【KY】 2009/10/30(Fri) 17:52
青木先生,surg先生
本当にありがとうございます。大変勉強になりました。
少しずつわかってきた気がします。勘違いしないように再度復習します。
話は変わりますが海外の医学論文も間違っていることもあるのでしょうか?雑誌の質にもよるのでしょうが。。。
No.11157 Re: ロジスティック回帰分析についてですが。 【青木繁伸】 2009/10/30(Fri) 21:17
外国だから間違えないと言うことはないでしょう。日本だってしっかりしたところはあるでしょうし。
No.11176 Re: ロジスティック回帰分析についてですが。 【のの】 2009/11/05(Thu) 16:42
ロジスティック回帰分析に必要なN数について
UCSFでは A too-simple rule of thumbとして Peduzzi et al, J ClinEpidemiol,1996;49:1373-9 の論文を根拠に“変数の10倍,その変数が有意な変数なら5倍で良い”という経験則を教えていました。
● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る