No.08161 Cox regressionモデルについて  【AC】 2008/11/05(Wed) 20:27

いつも参考にさせていただいてます。
生存率とそれに影響する要因に関する解析をやっています。添付のデータを,Rを使ってCox regression analysisをやってみました。要因F1とF2だけでやると,F1・F2共に生存日数とは関係ないと出ます。
foo.cox2<-coxph( Surv(Time, Status) ~ F1 + F2, data=FOO)
summary(foo.cox2)

coef exp(coef) se(coef) z p
F1 0.000178 1.000 0.000344 0.516 0.61
F2 -0.002140 0.998 0.002821 -0.759 0.45
で,3つめの要因として,要因F1をある閾値(この場合2600)で分けグループ分け(High/Low)して,これを加えて同様にすると,先ほど有意差が出なかったF1でも有意差が出ます。
           coef exp(coef) se(coef)      z      p
F1 0.001062 1.00 0.000436 2.435 0.0150
F2 -0.000556 1.00 0.002790 -0.199 0.8400
F3F1L 3.627250 37.61 1.266736 2.863 0.0042
Cox モデルでは,他の要因が別の強い要因に影響されるという記述があったのですが,この場合は,どう解釈すればよいのでしょうか? 気持ちとしては,要因F1 が生存に何か関係しているというのを言いたいのですが。そもそも要因F1から,別の要因F3を作ったのが問題なのでしょうか。ご指摘いただければと思いま す。

添付データがアップロード出来ないので,ここに貼り付けておきます。
ID	Status	Time	F1	F2	F3
id01 1 68 1542 247 F1L
id02 1 83 1676 149 F1L
id03 1 124 1775 196 F1L
id04 1 101 1802 258 F1L
id05 1 57 2253 274 F1L
id06 1 93 2394 402 F1L
id07 1 103 2426 278 F1L
id08 1 68 2572 580 F1L
id09 0 180 2745 263 F1H
id10 0 193 2801 452 F1H
id11 0 186 2962 307 F1H
id12 0 235 3074 377 F1H
id13 0 148 3462 362 F1H
id14 0 173 3492 436 F1H
id15 1 83 3593 404 F1H
id16 0 298 3947 793 F1H
id17 1 83 4519 661 F1H
id18 0 312 4650 606 F1H
id19 1 54 4652 418 F1H
id20 1 83 5383 532 F1H
id21 1 110 5640 519 F1H
id22 1 83 5643 487 F1H

No.08172 Re: Cox regressionモデルについて  【青木繁伸】 2008/11/06(Thu) 17:45

ある変数と,その変数をある値で区切った2値データを同時にモデルに組み込むというのは,「あこぎ」ですね (^_^;)これが許されるなら,もう一個,更に2個と,区切り位置と区分数を変えた変数をどんどんモデルに組み込んでもおーけーということになりません か(なりますよ)。
それと,なぜ2600で分けたんでしょう。F1 のメディアン 3018 で分けたとしたら,
                         coef exp(coef) se(coef)      z    p
F1 0.000357 1.000 0.000408 0.875 0.38
F2 -0.001587 0.998 0.002847 -0.557 0.58
F1 < median(F1)TRUE 0.708764 2.031 0.940255 0.754 0.45
となりどれも有意な係数ではなくなりますよ。つまり,有意になったのは,たまたまであったと。とにかくデータが少ないですから,ちょっとしたさじ加減で色々な結果が出てしまうのでしょう。よい結果が出るように分割点を探索するのはよくないこととされています。

いずれにせよ,繰り返しになりますが,同じ変数を手を変え品を変えて同時にモデルに取り込むのはよくないですよ,ということで。

No.08174 Re: Cox regressionモデルについて  【AC】 2008/11/06(Thu) 18:51

ご返答ありがとうございます。やはり,そうですよね。データは実際には,もっと多いのですが,それでもCox解析には厳しいです。

>それと,なぜ2600で分けたんでしょう。F1 のメディアン 3018 で分けたとしたら,

こ れは,前任者によるもので,そこで分けるとKaplan-MeierでのLog-rank Pが一番低く出るからということで,そういう設定でした(恣意的だなとは思いましたが)。最新の生存日数で,再解析してくれと言われたのですが,Nが少な いこともあり,お手上げ状態ですが,仕方ないですね。言い訳がましくなってしまいました。すみません。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る