No.12134 ロジスティック回帰分析を用いる場合のサンプル数について  【MAGI】 2010/02/20(Sat) 12:05

いつも参考にさせていただいております.
投稿していた論文の査読者から,ロジスティック回帰分析のサンプル数は, 最低100例は必要ではないかとのコメントがありました.環境的になかなか多数のサンプル調査を行うことが困難な状況です.今回は,47例のデータをもち いました.また,多変量ロジスティック回帰分析を行うべきとのコメントもありました.ロジスティック回帰分析を行う際,独立変数ごとに最低10例,5独立 変数なら最低50例必要というふうな大雑把でもいいのですが基準(文献)はありますでしょうか.すでに実施してしまった調査であり,例数を増やすことはで きないのです.領域は社会福祉・医療福祉分野です.
どなたかご教示いただければ幸いです.

No.12135 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【surg】 2010/02/20(Sat) 13:56

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol. 1996;49:1373-9.

http://www.ncbi.nlm.nih.gov/pubmed/8970487?dopt=Abstract&holding=f1000

青木先生の No. 11155 の投稿を参照してください。
変数の数の10倍程度のイベント数(サンプルサイズにあらず)が必要とのことです。

No.12136 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【MAGI】 2010/02/20(Sat) 17:43

surg様,いつも対応ありがとうございます.この研究では,患者さんのADL(介護量として使用),性別(ダ ミー変数),年齢,主介護者の有無(ダミー変数)等の4独立変数を用い,患者さんが訪問診療サービス(その他訪問看護,デイサービス,介護ベッド等)を利 用しているか否かを従属変数として分析を行いました.この場合,イベント数とは何を意味するのでしょうか.イベント→「事象」とすると,用語辞典で調べた ところ,「確率実験で起こりうる単一の結果」とありました.愚かな質問とは存じますがご教示お願いいたします.この研究では,p値が有意な係数はADLの みだったので,各種サービス利用の有無を予測する,ADL値のカットオフ点を算出したいのです.4独立変数で47例の分析で妥当といえるでしょうか.
別の研究では,この掲示板でもお世話になった,専門職の離職意向を従属変数とした多項ロジスティック回帰分析をおこなっていますが,独立変数は4〜5位で,例数は66例しかありません.投稿先は,同じ雑誌を考えているのです.

No.12138 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【青木繁伸】 2010/02/20(Sat) 21:45

終端事象 endpoint のことですよ。
よくある分析例では,「死亡」とか「発症」とかね。
あなたの例で言えば,「訪問診療サービスを利用している」,「離職したいと思っている」などなど。

No.12140 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【MAGI】 2010/02/21(Sun) 09:10

surg様,青木先生ありがとうございます.繰り返す質問で恐縮です.「J Clin Epidemiol. 1996;49:1373-9.のEPVについての記述ですが,673人のデータ中死亡例が252人で,独立変数が7個とすれば,252/6=36 で,EPV>10なので問題ない」という理解でよいでしようか.当方の研究では,「訪問診療サービスの利用の有無」でADL自立度が高いほど利用する確率 が低くなり,ADLのカットオフポイントを求めたいのです.かなり不安になってきましたが,「訪問診療サービスの利用の有無」は,有群8例で無群33例で す.週端事象の捉え方ですが,無群33例を終端事象と考えEPVから用いることができる独立変数は3種類が限界と考えてよろしいでしょうか.
ま た,離職意向に関する研究の方は,従属変数が離職希望なし(43例),転職場希望(6例),転職希望(14例)の3群で多幸ロジスティック回帰分析をした いのです.この場合,終端事象は6+14=20で独立変数2までと考えていいでしょうか.あるいは,多項ロジスティック回帰分析は適用できないでしょう か.

No.12141 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【青木繁伸】 2010/02/21(Sun) 10:36

> という理解でよいでしようか

よいでしょう。

> 訪問診療サービスの利用の有無」でADL自立度が高いほど利用する確率が低くなり,ADLのカットオフポイントを求めたい

どちらを終端事象とするかということでしょうけど,一般的に二つの事象の不可逆的変化後の方(生死なら死,寛解・再発なら再発のように)。この場合,ADLと利用度ということですから,終端事象は「利用あり」ということでしょう。ということで,

> 無群33例を終端事象と考えEPVから用いることができる独立変数は3種類が限界と考えてよろしいでしょうか

はだめでしょう。

> 終端事象は6+14=20で独立変数2までと考えていいでしょうか

よいでしょう。
しかし,一般的には,昔からさしたる根拠もなく「データは100位は必要だよね」といわれてきたことにも,注意を払う必要がありますよ。
なぜ,データがある程度多くなければならないかは,「たまたま分析に使用されたデータの中に,特殊なデータが含まれていたとき,全数が少なければ,その影響が大きくなりすぎる」ということですよ。

> あるいは,多項ロジスティック回帰分析は適用できないでしょうか

理論的には適用できるけど,実際的には適用は難しい(あまり適切とはいえない)。

# 他のスレッドも同じだが,最近,だめ押しの確認が多くなっているような。
# 自明なことの確認は,いたずらにスレッドを伸ばす。

No.12142 Re: ロジスティック回帰分析を用いる場合のサンプル数について  【MAGI】 2010/02/21(Sun) 15:05

青木先生,ご教示ありがとうございます.過去ログ検索などを行うように気をつけます.離職意向の研究は,追加調査を行う予定です.サービス利用の研究は,残念ですが他のまとめ方がないか検討してみます.おかげさまで,大変勉強になりました.御教示深謝いたします.

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る