No.20785 area under the curve  【宮本健志】 2014/01/25(Sat) 00:56

いつもお世話になっております。
17項目の血液検査の項目を用いてイベントの予測能をROCで評価しようとしてお ります。ソフトはSPSSver19です。それぞれの血液検査のAUCを,一つ一つ解析にかけて結果比較するといった手法はROCは単変量ですのでエラー がでるので適していない面ももっていると思います。しかし独立変数を絞りこむことより,すべての独立変数のAUCを比較したほうが学問的に意味がある場合 は(統計学以外での学問で),この方法でAUCを比較してもよいのでしょうか。
 素人の質問で申し訳ありませんがよろしくお願いします。

No.20787 Re: area under the curve  【taipapa】 2014/01/26(Sun) 14:05

17項目の血液検査の結果を別々に単変量解析で調べるのはかまいませんが,それを個々に比較しても不十分でしょ う.たとえば,極端な例を上げると,コーヒーを飲む人は飲まないヒトよりも乳癌になりくかったという結果が出たとしても,だからといってコーヒーは乳癌の 予防効果があるとはいえないでしょう.コーヒーを飲む人は全員男性で,飲まない人は女性ばかりだったということもありえます.つまり交絡因子の調整が必要 です.ですから,17項目のすべてをロジスティック回帰モデルを用いて評価し,個々の項目のオッズ比を求めるのが作法だと思います.ただし,その場合 は,events per variable > 10のルールに従い,少なくとも170イベントがあることが必要です.このイベントの発生率が50%ぐらいなら340症例ですみますが,10%なら 1700例ぐらい必要です.ということで,貴方の解析対象のイベント数によっては,項目を絞り込んでロジスティック回帰を行う必要が有ると思います.な お,最後に出来たモデルをROCカーブを描きAUCを求めることもできます.

> すべての独立変数のAUCを比較したほうが学問的に意味がある場合は(統計学以外での学問で)
よく分からないのですが,統計学的に意味のないことに意味をもたせるってどんな分野ですか?

No.20788 Re: area under the curve  【宮本健志】 2014/01/26(Sun) 17:24

ありがとうございます。propensity score をもちいて cox 回帰分析で 2 変量解析し有意であったものを roc で臨床的な予測および診断能を評価しようとしております。独立変数が多くてサンプルは 115 例,イヴェントは 31 例です。医学的にレアなデータでそのようなことをしております。

No.20789 Re: area under the curve  【宮本健志】 2014/01/26(Sun) 18:44

深いところまでご指摘頂きありがとうございます。logisticからROCへ展開する文献は多く散見されますが,cox regressionからROCに展開する文献も散見されております。後者のモデルを検討しております。
logisticのような数を絞り込み予測をする検定ではないのでROCの解析方法を悩んでおります。
数 を変数増加法などで絞り込むことはあまり意味がないと思っておりますが,17項目すべてをROC解析の結果として示してよいのか。accuracyは AUC0.5-0.7, 0.7-0.9,0.9-1.0でわけるとこが可能ですが(acta paediatricaのROCそういったreviewがあります),それらに分けて全体の傾向をざっくりととらえたいとおもっております。
また,ROCのイベントありと,イベントなしの分類についても打ち切り症例が8例混在しておりイベントなしに含んで解析しているので,そのバイアスについても悩んでおります。

No.20790 Re: area under the curve  【宮本健志】 2014/01/26(Sun) 18:48

症例数の件は理解しておりますが,実際に世の中に1700例の検討が過去の文献で存在しえない領域の場合はこのような解釈で単変量解析を駆使した医学論文も存在していると思いますが,その点でどうでしょうか。

No.20791 Re: area under the curve  【青木繁伸】 2014/01/26(Sun) 20:06

> 17項目のすべてをロジスティック回帰モデルを用いて評価し,個々の項目のオッズ比を求めるのが作法だと思います.

ごもっとも。

> 独立変数が多くてサンプルは 115 例,イヴェントは 31 例です。医学的にレアなデータでそのようなことをしております。

しかし,このことの基本は,「十分信頼性のある結果を得るにはこれくらいのサインプルサイズが必要です」ということで,検定などの場合の「然るべき検出力を得るためにはどの程度のサンプルサイズが必要です」というのと同じでしょう。

必要とされるサンプルサイズが得られないなら,検定の場合は,「だって,しょうがないじゃない」というでしょう。

Cox の比例ハザードモデルなどの場合でも同じでしょう。得られているサンプルサイズにより,説明変数を制限する必要はないでしょう。
「このサンプルサイズで,これだけの独立変数を使ってこういう結果でした」と報告するので何が悪い?

サンプルサイズにより説明変数の数を制限するのは,検定の場合で言ってみれば,「検出力 0.8 でものを言うにはサンプルサイズが足りませんでしたから,検定は行いませんでした」というに等しいのではないですか??

まあ,最初っからあきらめるんじゃなく,一応やってみて,結果を良く吟味してみればいかが?ということ。多変量の結果得られた結果を,単変量に戻って吟味してみるとかね。

サンプルサイズが全てを拘束するものではないですよ。サンプルサイズが小さければ,結果の信頼性が低くなるだけ。サンプルサイズが,よほど小さい場合には,信頼性が低いどころではなくて,全くダメダメの結果が得られるに過ぎないかも知れないけど。

No.20792 Re: area under the curve  【taipapa】 2014/01/26(Sun) 20:40

> 「このサンプルサイズで,これだけの独立変数を使ってこういう結果でした」と報告するので何が悪い?
> よほど小さい場合には,信頼性が低いどころではなくて,全くダメダメの結果が得られるに過ぎないかも知れないけど。

青木先生,
たとえば,Cox modelのシミュレーションでは,event per variable > 20でようやく生存率予測エラーが0.1未満という報告もあります.あー,釈迦に説法ですね.(^^;;;
一応,指摘はするべきと考えました.

元質問者の方へ
propensity scoreを使われているので,交絡因子に関してはよくご存知でしたね.propensity scoreを使うのなら,私はあまり良く知らないのですが,マッチング,層別分析,共分散分析,傾向スコアによる重み付け法などのどれかを使われるので しょう.イベントのある群とない群の数が異なており,且つ少ないのでマッチングではないですよね.そうすると,17の変数をまとめて傾向スコアを作って Cox modelで層別解析をするということでしょうか?そこまでは良いとして,その後に変数1つずつ素のデータでROC curve analysisをやるんですか? それでは何のためにpropensity scoreを作成したのでしょうか?
 その辺りの解析の詳細を書けば,propensity scoreについてよく分かっている人(私ではない)が答えてくれるかもしれませんね.

No.20795 Re: area under the curve  【青木繁伸】 2014/01/26(Sun) 23:36

> event per variable > 20でようやく生存率予測エラーが0.1未満

どの程度なら意味があるとするか,基準の問題ですね。

例えば,2群の平均値の差の検定で,5%の有意水準で有意な差が認められるときに,各群のデータの分布がどんな風であるかを見れば,有意というのがどの程度の差を見ているのかと我々が想像する差と合っているのかいないのか分かります。

No.20798 Re: area under the curve  【宮本健志】 2014/01/27(Mon) 16:52

  適切なご指導を頂きありがとうございます。8月からずっと解析しているデータで説明変数が22個あります。そ れぞれの説明変数を中央値でわかけて,年齢,性別,BMIでPropensity scoreを作成して調節因子としてハザード解析をおこなっております。イベントが30しかいませんので同時に解析する説明変数をなるべく少なくしたいの でそうしました。英国版のSPSSのPropensity scoreのネット資料にそういった英語のものがありました。
 それらの結果有意であったものをROCでAUCを比較する方法をとりました。pubmedで私のような方法で大量の独立変数のAUCを比較した文献がなく疑問が多く相談しました。
 青木先生のわかりやすい説明は目から鱗でした。ありがとうございます。独学で統計を勉強しており今後もお世話になるとおもます。あとはこの研究のネタの新鮮度で勝負します。感謝いたします。失礼します。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る