★ データに欠損のある生存率の比較 ★

 185 データに欠損のある生存率の比較  Taku  2002/02/25 (月) 18:47
  199 Re: データに欠損のある生存率の比較  sb812109  2002/02/27 (水) 23:16
   212 Re^2: データに欠損のある生存率の比較  Taku  2002/03/01 (金) 18:41
    213 Re^3: データに欠損のある生存率の比較(212の続き)  Taku  2002/03/01 (金) 18:54
     214 Re^4: データに欠損のある生存率の比較(212の続き)  sb812109  2002/03/01 (金) 23:43
      216 Re^5: データに欠損のある生存率の比較(続きあり)  Taku  2002/03/02 (土) 17:12
       217 Re^6: データに欠損のある生存率の比較(216の続き)  Taku  2002/03/02 (土) 17:17
        221 Re^7: データに欠損のある生存率の比較(216の続き)  sb812109  2002/03/02 (土) 22:07
         224 Re^8: データに欠損のある生存率の比較  Taku  2002/03/03 (日) 14:30
          225 Re^9: データに欠損のある生存率の比較(224の続き)  Taku  2002/03/03 (日) 14:32
           226 Re^10: データに欠損のある生存率の比較(224の続きその2)  Taku  2002/03/03 (日) 14:35
            232 Re^11: データに欠損のある生存率の比較(224の続きその2)  sb812109  2002/03/04 (月) 21:13
             266 Re^12: データに欠損のある生存率の比較(ダミー変数表現,続きあり)  Taku  2002/03/09 (土) 18:03
              267 Re^13: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  Taku  2002/03/09 (土) 18:09
               268 Re^14: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  sb812109  2002/03/09 (土) 22:08
                273 Re^15: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  Taku  2002/03/11 (月) 12:16
                 275 Re^16: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  sb812109  2002/03/11 (月) 19:07
                  284 Re^17: データに欠損のある生存率の比較(もう一度確認させて下さい)  Taku  2002/03/12 (火) 20:59
                   287 Re^18: データに欠損のある生存率の比較(もう一度確認させて下さい)  sb812109  2002/03/12 (火) 23:22
                    290 Re^19: データに欠損のある生存率の比較(もう一度確認させて下さい)  Taku  2002/03/13 (水) 17:23
                  282 Re^17: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/12 (火) 20:17
                   285 Re^18: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/12 (火) 22:58
                    288 Re^19: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/13 (水) 17:20
                     292 Re^20: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/13 (水) 21:08
                      295 Re^21: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/14 (木) 21:23
                       296 Re^22: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/15 (金) 00:08
                        298 Re^23: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/15 (金) 19:06
                   283 Re^18: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/12 (火) 20:24
                    286 Re^19: データに欠損のある生存率の比較(構造的0のこと)  sb812109  2002/03/12 (火) 23:04
                     289 Re^20: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/13 (水) 17:21
                      291 Re^21: データに欠損のある生存率の比較(構造的0のこと)  青木繁伸  2002/03/13 (水) 19:28
                       293 Re^22: データに欠損のある生存率の比較(構造的0のこと)  sb812109  2002/03/13 (水) 21:18
                        294 Re^23: データに欠損のある生存率の比較(構造的0のこと)  青木繁伸  2002/03/13 (水) 21:34
                         297 Re^24: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/15 (金) 18:35


185. データに欠損のある生存率の比較  Taku  2002/02/25 (月) 18:47
3種の植物の生存率が異なるのかを検討したいのですが,実験の途中で個体の一部を以下の通り採集したので
単純な比較ができませんが,以下の方法で検討が可能だと考えています
もし解析法が適切でなければご指摘よろしくお願いします

実験方法
3種の植物の12〜15個体の親から種子(各親の種子数は不揃い)を採集して,
約2000個の種子を一斉に蒔いた(8つの方形区を作り卵塊法に従う)

1年半で5回,発芽の有無,発芽個体の生死を確認をした(1年半後まで発芽しなかった種子はすべて死亡していた).
播種後6ヶ月で,発芽している個体の中から以下の要領で一部サンプルしたため,データに欠損がでた
(各種,1方形区からランダムに生存個体から1個を採集し,3種で合計3*8個体サンプル(1親から1個体だけ;不完全なラテン方画法)

データの欠損は,6ヶ月後に発芽・生存していた個体からランダムに選ばれたので,これを層別化して解析すれば
3種の生存率を以下の対数線形モデルで比較できると考えた.

(種子の生存・死亡)を,(種)・(親)・(*サンプル時の属性)・(方形区)の4要因を用いた対数線形モデル
(*サンプル時の属性):発芽して生存,発芽して死亡,発芽せず

     [このページのトップへ]


199. Re: データに欠損のある生存率の比較  sb812109  2002/02/27 (水) 23:16
対数線形モデルでもいいと思いますが,生存時間分析の方が
より適応が自然で解釈も容易ではないでしょうか。

参考書籍
「臨床生存分析」前谷俊三著 南江堂

     [このページのトップへ]


212. Re^2: データに欠損のある生存率の比較  Taku  2002/03/01 (金) 18:41
以前も対数線形モデルの相談でコメントをいただき,ありがとうございます

> 対数線形モデルでもいいと思いますが,生存時間分析の方が
> より適応が自然で解釈も容易ではないでしょうか。

やはりそうですか.ご紹介いただいた文献を勉強します.
ところで後学のために,
このデータで対数線形モデルを適用するにあたっては,以下3つの原因がありよくないと理解してよいのですか
1.4要因の内の(サンプル時の属性)という要因が解釈しずらい
2.死亡・生存がどの要因と関係しているのかを検討しているのに,
(発芽して死亡)のように要因のなかに,死亡が入っている
3.このセルは先験的0になる

また生存率=(発芽率)*(発芽した植物の生存率)なので,
3種の生存率の違いを検討するに,発芽,発芽後のどっちのステージで違いがあるのかも
検討することも考えていました

(長くなってすみません,続きがあります)

     [このページのトップへ]


213. Re^3: データに欠損のある生存率の比較(212の続き)  Taku  2002/03/01 (金) 18:54
212の続きです

採集した個体が他の生存個体と同じ生存率だったと仮定した場合,データをまとめると
種Aが発芽率は悪いが,発芽後の生存率が高いために3種の中で最も生存率が高かった

種  発芽せず死亡 発芽して死亡 発芽して生存(全種子数に対する%)
A    49      10       41
C    27      47       26
D    15      50       35

このことを検討するために2つの方法が考えました
どちらの方がよいのか
間違いなどがありましたら指摘していただければ幸いです

方法1
・(発芽せず死亡),(発芽して死亡),(発芽して生存)の3カテゴリーを従属変数として,
種・親・方形区・サンプル時の属性の4要因の対数線形モデルによる解析
・発芽した個体のデータだけを用いて,(生存),(死亡)の2カテゴリーを従属変数として,
種・親・方形区・サンプル時の属性の4要因の対数線形モデルによる解析

方法2
・全データと発芽個体のみの2つの生存時間分析(予後因子は種・親・方形区の3要因)
・発芽の有無は全個体に関してわかっているので
発芽の有無を従属変数として,種・親・方形区の3要因の対数線形モデルによる解析

     [このページのトップへ]


214. Re^4: データに欠損のある生存率の比較(212の続き)  sb812109  2002/03/01 (金) 23:43
仮説あるいは研究の目的によって違うと思います。

問題を次の様に手術に置き換えてみます。
(1)発芽せず死亡:術中死
(2)発芽して死亡:病院内死亡
(3)発芽して生存:退院後死亡

患者にとっては,生きて退院出来るか否かは大きな意味を持ちます。
逆に言えば,手術中に死のうが,10日後に死のうが患者には,大差
無いと言う事です。とすると,(1),(2)は纏めて,早期死亡の
有無が問題となり,Logistic 回帰分析,対数線形モデル分析等が適当
かと思います。

次に,退院後の生命予後は,1年後死亡なのか,あるいは,10年後
死亡なのかは,患者にとって大きな関心事となります。さらに患者の中
には,行方不明や研究終了時まで生存等(censored data)が出てきます。
この場合は,死亡までの時間を目的変数とした生存時間解析が適当だと
思います。

発芽個体のみを解析対象とすることの是非
手術に置き換えてみますと,生きて退院できた群のみを解析対象とする
ことになります。では,術者が下手で,状態の悪い患者を死に至らしめ
る割合が高い場合は,どの様な結果が得られるでしょうか?
もっとも,研究の目的次第でしょうが。

     [このページのトップへ]


216. Re^5: データに欠損のある生存率の比較(続きあり)  Taku  2002/03/02 (土) 17:12
後述の研究目的のため,今回の問題を手術と置き換えて考えられないと思いました

・発芽せず死亡,発芽して死亡は,今回は重要なのでまとめない
・初期の死亡(1年半まで)だけが解析対象でそれ以後の死亡は解析対象でないので
研究終了時(1年半まで)の生存はcensored dataと考えていない

研究の目的
3種の木が異なる環境にすみわけていて,このすみわけがなぜ起きているのかを解明する

木は普通数百年以上生きるが,発芽〜芽生えまでの間に多くの死亡が起こりその後の死亡は少ないので
初期の死亡がすみわけを考えるには重要
各3つの環境に3種の種子をまいて*1,以下3点を検討

1)3種のすみわけは初期の死亡率の違いで説明できるか
2)初期の死亡である種子〜発芽,発芽後〜芽生えまでの2つのステージの死亡は
すみわけの要因を探るために分けて考察すべき
2-1)3種の親木の形態は異なっているので,芽生えの形態=適応戦略(葉が厚いなど)が異なっている可能性を検討
・芽生えの形態の違いがあるか:芽生えの採集(censored data;3種間の形態は違った)
・その戦略の違いの結果としての芽生えの生存率が3種間で違うか(発芽個体のみを解析対象とする理由)

続きあり

     [このページのトップへ]


217. Re^6: データに欠損のある生存率の比較(216の続き)  Taku  2002/03/02 (土) 17:17
続きです.毎度長くてすみません.間違いがあれば指摘していただければ幸いです

3)各種の生存・死亡を左右する環境要因は何か?
・8つの方形区をさらに4つに分け,36のサブ方形区毎に環境測定(水分,光など3項目)

解析
1)1年半後の生死を目的変数,種・親・方形区・サンプル時の属性の4要因の対数線形モデル
2)発芽:1年半後の発芽の有無を目的変数,種・親・方形区の3要因対数線形モデル
  芽生え:発芽した個体のみのデータで,1年半後の芽生えの生死を目的変数,種・親・方形区・サンプル時の属性の4要因の対数線形モデル
3)発芽:種毎に1年半後の発芽の有無を目的変数,3つの環境データ・親(方形区も?)を独立変数とするlogistic回帰
  芽生え:発芽した個体のみのデータで,種毎に1年半後の芽生えの生死を目的変数,3つの環境データ・親・サンプル時の属性(方形区?)を独立変数とするlogistic回帰

*1 始めに示した実験を実はあと2つの試験地でも同時に研究
また興味は同じ試験地内での3種間の生存率の違いで
同種内の試験地間の生存率の差は検討する必要はないと考え
試験地毎に解析を行う

     [このページのトップへ]


221. Re^7: データに欠損のある生存率の比較(216の続き)  sb812109  2002/03/02 (土) 22:07
> 研究の目的
> 3種の木のすみわけがなぜ起きているのかを解明する

> 木は普通数百年以上生きるが,発芽〜芽生えまでの間
> に多くの死亡が起こりその後の死亡は少ないので初期
> の死亡がすみわけを考えるには重要

なるほど。

> 解析

説明変数の選択は,統計学的根拠のみならず,先行研究
や,その分野の深い知識が必要と思いますので,私には
何とも言えません。
対数線形モデルにするかロジスティック回帰分析にする
かは,この場合,目的変数をどう表現するかと云った二
義的意味しかないと考えますし,結果が異なることもな
いと思います。私の場合,オッズ比が馴染み深く,解釈
も容易ですので,ロジスティック回帰分析が好みです。
ただ,アカデミズムの分野では,解釈が容易と云うのは,
解析法選択の根拠とは受け入れ難いかもしれません。

芽生えの生存率を目的変数として,説明変数を
(1) 種子〜発芽,
(2) 発芽後〜芽生え
として予備解析を行ってもいいような印象を持ちます。

     [このページのトップへ]


224. Re^8: データに欠損のある生存率の比較  Taku  2002/03/03 (日) 14:30
毎度文章が長くてすみません
お時間のあるときに目を通していただければ幸いです

以前聞いたことと重複することもありますが
いくつかお伺いしたいことがあります

> 芽生えの生存率を目的変数として説明変数
> (1) 種子〜発芽,
> (2) 発芽後〜芽生え
> として予備解析

この分割表の場合ありえるのは
芽生えの生存=(1)発芽+(2)死亡-
芽生えの死亡=(1)発芽-(2)死亡-
芽生えの死亡=(1)発芽+(2)死亡+


(1)のレベルの発芽あり,カテゴリーでの目的変数の生存率は=発芽個体の生存率に相当する
(2)のレベル死亡あり,カテゴリーでの目的変数の生存率=0
(2)のレベル死亡なし,カテゴリーでの目的変数の生存率=100%になってしまうので
(2)はモデルに組み入れる意味がないような気がするのですが

これが正しければ
具体的に
芽生えの生存率を目的変数として,(1),種,親,方形区・(サンプル時の属性*:後述)の5この説明変数で
logistic回帰する
”種Aが発芽率は悪いが発芽後の生存率が高いために3種の中で最も生存率が高かった”ということがありそうなので
種と(1)の交互作用項に注意を払うという方針でよろしいですか

続きます

     [このページのトップへ]


225. Re^9: データに欠損のある生存率の比較(224の続き)  Taku  2002/03/03 (日) 14:32
224の続きです

1)ロジスティック回帰分析で,説明変数にカテゴリー変数があり
構造的0や標本抽出0が生じた場合,問題はありませんか?
問題があるとすると対処法はありますか

具体的には,

1年半後の種子の死亡・生存が3種間で違うのかを検討するため
(例1)死亡・生存を目的変数,種・親・方形区・(サンプル時の属性*)の4つの説明変数のlogistic回帰をした場合

(サンプル時の属性*):サンプル時(発芽して生存),(発芽して死亡),(発芽せず)の3カテゴリー
(発芽個体を採集して生じたcensored dataによるデータのゆがみを除くための項目)

1ー2)死亡・生存がどの要因と関係しているのかを検討しているのに,
実験途中の播種後約6ヶ月のサンプル時に(発芽して死亡)のように要因のなかに,
死亡が入っていることに問題はないですか?(構造0のセルになる)

1ー3)種・親・方形区で区切ると1セル内に1個体しかない親が数個体あるので
(1年半後の種子の死亡/生存)・種・親・方形区・(サンプル時の属性*)の5つの変数で区切ると標本抽出0のセルが数多く生じます
(標本抽出0のセルは,対数線形モデルでの対処法の1つに0.5とおくようですが)

続きあり

     [このページのトップへ]


226. Re^10: データに欠損のある生存率の比較(224の続きその2)  Taku  2002/03/03 (日) 14:35
225の続きです

2)3群の生存率に有意な差があるかをlogistic回帰で検討する
種AはD1=0, D2=0,種BはD1=1,D2=0,種CはD1=0,D2=1のようにダミー変数を用いて表現した
モデル:log(p/(1-p)=b0+b1D1+b2D2
多くの教科書(統計ソフトでも)では,対数オッズ比,標準誤差などの推定値の出力をしてwald検定(もしくはカイ2乗)をする場合,
b0, b1, b2の推定値がでますが,今回の目的である3群間の生存率の差のうち,種A-種B=b1,種A-種C=b2で検定されていますが,
肝心の種B-種C=b1-b2の検定(標準誤差の計算)をどうするか書かれておらず,どうやって計算すればよいのでしょうか?
また,このような検定をやった場合に多重比較の問題などはありますか?

3)(例1)の解析をする場合,親,方形区の説明変数は,それぞれ12〜16個体,8方形区なので
ダミー変数を用いると親で11〜15個,方形区で7個のダミー変数が生じ,
(例1)で総計2+15+7+2=26の説明変数で解析します
データは2000個(発芽個体のみだと700個体前後)ぐらいあれば,この説明変数の数は問題ありませんか?

最後まで読んでいただきありがとうございます
長くなってしまいすみません

     [このページのトップへ]


232. Re^11: データに欠損のある生存率の比較(224の続きその2)  sb812109  2002/03/04 (月) 21:13
/ 予備解析問題

思い付きですので,気にしないで下さい。
/ ダミー変数表現 

     X1  X2
種A  0   0
種B  1   0
種C  0   1
回帰係数の解釈はそれぞれ次の様になります。
β1:種B vs. 種A
β2:種C vs. 種A

もし,種B vs. 種Cを求めたいのであれば,あらためてダミー変数表現
(種B: X1==0, X2==0)とする。

/ 多重比較の問題

A vs. B, A vs. C, B vs. C と比較すれば確かに多重比較との批判を
受けると思います。ただし,もし比較する種が3種類程度であれば,
いいじゃないかと個人的には思います。同時に調整しなければならない
因子は他にもあることだし,,,。

/ セルが0の問題

空っぽのセルがあると云うは全滅のセルがかなりあると云うことでしょうか。
親,方形区の水準が大きいので,単変量解析を行い,纏めることが可能
であれば,纏めて水準の個数を減らすことを考えます。そうすれば,空
のセルは回避出来るのではないでしょうか。それでも,空のセルが出る
場合は,補正をしてまで数値計算を行うよりむしろ,集計結果をそのまま
報告します。つまり,統計処理をする必要がない位に結果の解釈は容易
でしょうから。

     [このページのトップへ]


266. Re^12: データに欠損のある生存率の比較(ダミー変数表現,続きあり)  Taku  2002/03/09 (土) 18:03
昨日まででかけていました
返事が遅れてすみません

このやりとりで貴重なアドバイスをいただき
また自分でもいろいろと勉強したりで
少しずつ自分でも理解が深まっています
ありがとうございます
>X1  X2
>種A  0   0
>種B  1   0
>種C  0   1
>回帰係数の解釈はそれぞれ次の様になります
>β1:種B vs. 種A
>β2:種C vs. 種A
>もし,種B vs. 種Cを求めたいのであれば,あらためてダミー変数表現
>(種B: X1==0, X2==0)とする

なるほど!
それで求まりますね

> A vs. B, A vs. C, B vs. C と比較すれば確かに多重比較との批判を
> 受けると思います。ただし,もし比較する種が3種類程度であれば,
> いいじゃないかと個人的には思います。同時に調整しなければならない
> 因子は他にもあることだし

そもそも説明変数を複数導入したモデルの場合
各変数の回帰係数のwald検定などをしていますが
多くの変数がある場合,各変数全体で第一種の過誤の確率を
有意水準以下に制御されているとみていいのですか
本来はこの変数間でも同時に調整する必要があるのでしょうか
(単変量解析で複数の変数の検定を行う場合問題があると思いますが

続きあり

     [このページのトップへ]


267. Re^13: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  Taku  2002/03/09 (土) 18:09
毎度長くなってしまいすみません

> / セルが0の問題
>
> 空っぽのセルがあると云うは全滅のセルがかなりあると云うことでしょうか。

空っぽのセルには2つあります
1サンプリング”0”
サンプル数が少なくて0のセルができてしまう
極端な例では,1方形区あたり1個の種子しか播種していない親がいるので
生存・死亡のどちらかに必ず0のセルができる
また発芽個体のみの生存死亡を検討する場合は,発芽率が20%の種もあるので
そもそも1方形区に発芽個体なしという親もでてきます

2構造的”0”(不完備表)
もともとそのセルは0になる
今回の例では,採集による欠損データの偏り*を層別化するために
(*生存個体からランダムに採集したので)
1年半後の生存・死亡の説明変数として,”6ヶ月後の採集時の生存・死亡”も導入する
(もちろん親などの他の変数もある)
1年半後の生存かつ6ヶ月後の採集時の死亡というセルは必ず0になる
(一度死んだら生き返ることはないので)

これらのセル0の対処法は,対数線形モデルでは別に扱うようですが
ロジスティック回帰分析ではどうでしょうか

変数のまとめ方についても後ほど具体的に伺わせてください

     [このページのトップへ]


268. Re^14: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  sb812109  2002/03/09 (土) 22:08
> 多くの変数がある場合,各変数全体で第一種の過誤の確率を
> 有意水準以下に制御されているとみていいのですか

違います。

> 1)3種のすみわけは初期の死亡率の違いで説明できるか(216より)

交絡因子は統計学的調整の対象であって,検証すべき対象ではないと
考えています。検証すべきは,あくまでも1)で引用した仮説である
べきです。多変量解析で多くの説明変数が掲載されているのは,仮説
の棄却が,これら既知の交絡因子では説明できないと云うことを主張
しているのだと理解しています。
もし,解析の途中で仮説以外の知見が得られ,それがその分野で重要
な知見であれば,仮説として提示し,新に実験を組んでデータを収集
し,解析を行い,棄却・採択を決めるべきと考えています。

> 本来はこの変数間でも同時に調整する必要があるのでしょうか
> 単変量解析で複数の変数の検定を行う場合問題があると思いますが

単変量解析を行うことに問題があり,多変量解析を行う必要性がない
と考えるのであれば,そもそも何故,統計解析を行う必要があるので
しょうか。

     [このページのトップへ]


273. Re^15: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  Taku  2002/03/11 (月) 12:16
>多変量解析で多くの説明変数が掲載されているのは,仮説
>の棄却がこれら既知の交絡因子では説明できないと云うことを主張
>しているのだと理解しています

多変量解析で〜以下は
”多変量解析で多くの説明変数が掲載されているのは
交絡因子を調整した上で仮説の棄却,採択をしていると云うことを主張している”
という意味ですか

>単変量解析を行うことに問題があり多変量解析を行う必要性がない
>と考えるのであればそもそも何故統計解析を行う必要があるので
>しょうか

同じデータで単変量解析を繰り返すのは多重比較の問題があるが
多変量解析における各変数の回帰係数の検定を繰り返しているのは多重比較の
問題があるのかが疑問でした
多変量解析を行う必要が無いと述べたかったのではないのです

多変量解析をする理由は,交絡因子を調整した上で仮説を検討すること
検討したい予後因子が複数ある場合,これらの因子間の交互作用を含めて
個々の予後因子の効果を検討することと理解してます

答えになっているか不安です

重ね重ねお伺いしてすみません
267ででてきた構造的0がある場合は
ロジスティック回帰では対処法がありますか
対数線形モデルでは対処できるようですが

     [このページのトップへ]


275. Re^16: データに欠損のある生存率の比較(セルが0の問題 ,226の続き)  sb812109  2002/03/11 (月) 19:07
> ”多変量解析で多くの説明変数が掲載されているのは交絡因子を調
> 整した上で仮説の棄却,採択をしていると云うことを主張している”
> という意味ですか

そうです。

> 同じデータで単変量解析を繰り返すのは多重比較の問題があるが
> 多変量解析における各変数の回帰係数の検定を繰り返しているの
> は多重比較の問題があるのかが疑問でした

問題だと思います。

> 個々の予後因子の効果を検討することと理解してます

研究とか学会とかは縁遠い世界で様子が判りませんが,上記の様な
対処法は問題とされないのですか?「個々の予後因子の効果を検討
する」とは,仮説に関わる因子と交絡因子を予後因子と云う名の下
に同列に扱う様に読めますが。もし,そうであるなら,多重比較と
同種の問題が生じるのではないかと云う気がします。

(1)同じデータで,ある変数の検定を繰り返すこと
(2)同じデータで,多数の変数の検定を一度に行うこと

多重比較と多数比較(そんな言葉はありませんが,,,)。

「構造的0」とは初めて聞く言葉です。2×2分割表の4つのセル
の内の1個が0であるような事なのでしょうか?

     [このページのトップへ]


284. Re^17: データに欠損のある生存率の比較(もう一度確認させて下さい)  Taku  2002/03/12 (火) 20:59
重ね重ねの質問ですみません
実験の途中のサンプリングによるデータの偏りを層別化する方法
についてお伺いします

”1年半後の生存率は,3種間で異なるのか”が仮説です

しかし
実験の途中の播種後6ヶ月に発芽して生存していた個体(下の表のケース3)か4)の個体から)
からランダムに採集した(1種あたり16個体(播種した種子総数約800)

この時,発芽率,生存率は3種で異なるので,サンプルに偏りが生じた
そのため1年半後の実験終了時の生存率を3種間で単純に比較できない
 播種 6ヶ月後 1年半後
1)-  -   *
2)-  -   +
3)-  +   +
4)-  +   *
5)-  *
-:未発芽,+:発芽生存,*:死亡
1年半後未発芽個体はすべて死亡していることを確認した

欠損データの偏りを層別化するために,
(播種後6ヶ月のとき発芽生存していたか,否か)
=ケース3)+4)か,それ以外の1)+2)+5)の2カテゴリー
という変数をロジスティック回帰分析に導入してもよいでしょうか

目的変数である生死が,説明変数に含まれてしまっていますが,

     [このページのトップへ]


287. Re^18: データに欠損のある生存率の比較(もう一度確認させて下さい)  sb812109  2002/03/12 (火) 23:22
研究デザインが複雑すぎて私には判断できません。

仮説は,単純明快に1行で書き下す。
解析は,仮説の採択・棄却に専念する。

わけには行かないのでしょうね。

     [このページのトップへ]


290. Re^19: データに欠損のある生存率の比較(もう一度確認させて下さい)  Taku  2002/03/13 (水) 17:23
> 研究デザインが複雑すぎて私には判断できません。
>
> 仮説は,単純明快に1行で書き下す。
> 解析は,仮説の採択・棄却に専念する。

この度は,たびたびの長い文章にもかかわらず
コメントをいただきほんとうにありがとうございます
データから上記の形にもっていくという考え(統計上の仮説,対立仮説はなに?)が足りなかったのだと
痛感させられました

細かな研究デザインは,もうすこし頭を整理して
専門の近い方に伺おうと思います

最後に水準数が多すぎて0のセルが多発してしまう対策である
水準をまとめる方法について伺わせてください

例)生死が目的変数,説明変数,親(3水準αβγ),その他ある場合
親の単変量解析で回帰係数の検定(多重検定)から

親の下のアルファベットが異なるのは,親間で生死の頻度が有意に異なる(wald検定)ことを示すとして
2つのケースを取り上げます
親α β γ

 a ab  b ・・1

 a a   b ・・2
1のケースはまとめられないが,2のケースでは親α βはまとめて2水準にしてよい
というやり方でよいのでしょうか

     [このページのトップへ]


282. Re^17: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/12 (火) 20:17
>研究とか学会とかは縁遠い世界で様子が判りませんが,上記の様な
>対処法は問題とされないのですか

私はまだ勉強を始めたばかりですが
丹後ら(1996)等の教科書には述べられていません

>「個々の予後因子の効果を検討する」とは,仮説に関わる因子と交絡因子を予後因子と云う名の下
>に同列に扱う様に読めますが。もし,そうであるなら,多重比較と
>同種の問題が生じるのではないかと云う気がします。

用語の使用が間違っているのかもしれません
私は予後因子を仮説に関わる因子として用いました
つまり「個々〜検討する」とは
交絡因子とは別に,複数の予後因子の効果を検討する場合があり
例えば,私の例だと芽生えの生死がどの環境要因(光・水分など)と関連しているかを検討する場合
を想定してました

>(1)同じデータである変数の検定を繰り返す
>(2)同じデータで多数の変数の検定を一度に行う

上の私の例だと,光,水分など4項目の変数を同時に検定し
(2)の状況になります
これらの変数の検定では
どのような調整を行う必要がありますか
また,この例では交絡因子として親(11〜14変数)を層別化します
これは多重比較の対象外ということでいいですか

     [このページのトップへ]


285. Re^18: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/12 (火) 22:58
> 私は予後因子を仮説に関わる因子として用いました

了解。

> 交絡因子とは別に,複数の予後因子の効果を検討する場合があり(略)
> 光,水分など4項目の変数を同時に検定し(略)

”複数の”予後因子と云うのが判りません。帰無仮説はどの様に記述される
のでしょうか。また,対立仮説は?

     [このページのトップへ]


288. Re^19: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/13 (水) 17:20
> > 交絡因子とは別に,複数の予後因子の効果を検討する場合があり(略)
> > 光,水分など4項目の変数を同時に検定し(略)
>
> ”複数の”予後因子と云うのが判りません。帰無仮説はどの様に記述される
> のでしょうか。また,対立仮説は?

log p/(1-p)= β1x1+β2x2+β3x3+β4x4+β5x5+・・・+β16x16
x1〜x4が仮説に関わる因子(環境条件)で連続変数,x5〜x16が親で交絡要因でカテゴリー変数

H0:β1=β2=β3=β4=0,H1:H0でない
という仮説を検定しモデルに意味があるかを検討

次に各変数が意味のあるものなのかの検定
H0:βk=0,H1:βk≠0
k=1〜4

Waldカイ2乗では,自由度4のχ2分布を利用して検定する
ようですが,
これはここの変数を第一種の過誤の確率を有意水準以下に制御しているのか
ここの変数全体で第一種の過誤の確率を有意水準以下に制御しているのか

丹後ら(1996)の統計的推測の項をもう一度よく読みましたが
Wald検定のところが理解にいたりませんでした

     [このページのトップへ]


292. Re^20: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/13 (水) 21:08
帰無仮説:光は生存率に差がない。
     水分は生存率に差がない。,,,
と質的に異なるものを1つの帰無仮説に立てられますか?
帰無仮説:光の波長は生存率に差がない。として,β1,2,3 を赤,青,黄色。
対立仮説:光の波長により生存率に差がある。と云うのなら仮説として成立すると思
いますが。

> Wald検定のところが理解にいたりませんでした

丹後ら(1996)は読んだことがありませんが

(1)Wald 検定
   各説明変数毎に有意差を計算。統計学的には(2)の方法が望ましいとのこと。
(2)尤度比検定
   Large model:β1,2,3,4全てを含み,かつ,その他の説明変数を含むモデル
   Small model:β1,2,3,4を含まず,その他の説明変数を含むモデル
   2つのモデルを比較する方法。統計量は,ロジスティック回帰の場合,自由
   度4のχ2乗分布をすることを利用して計算。
   検定すべき仮説は,β1,2,3,4==0
(3)AIC, BICを利用
   入れ子になっていない任意の2つのモデルの検定が可能。,,,の様です。
   モデルの比較(説明変数の取捨選択)は,全面的にこの方法へ移行しようと
   考えています。

     [このページのトップへ]


295. Re^21: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/14 (木) 21:23
> 帰無仮説:光は生存率に差がない。
>      水分は生存率に差がない。,,,
> と質的に異なるものを1つの帰無仮説に立てられますか?

目的:生存率に寄与している環境要因を探る
自然条件下での実験なので,複数の環境要因が変化していて
そのうちのどの要因が重要なのかを解析したい

仮説1:光は生存率に差がない,H0:β1=0,H1:β1≠0
仮説2:水分は生存率に差がない,H0:β2=0,H1:β2≠0
仮説3 〜
仮説4 〜

という4つ仮説を下記の1つのモデルで交絡因子(方形区:β5〜β16)を調節して
かつ4つの検討したい環境要因の間の相関関係を考慮しつつ
各環境要因があたえる生存率への影響を検討するというのは
ロジスティック回帰分析ではまずいことなのでしょうか
log p/(1-p)= β1x1+β2x2+β3x3+β4x4+β5x5+・・+β16x16


丹後ら(1996)の解析例にこのような要因解析型の解析例(と私は理解している)が
紹介されていますが,それらも本来はまずいということでしょうか


> (2)尤度比検定(略)
>    検定すべき仮説は,β1,2,3,4==0
β1,2,3,4==0は,β1=β2=β3=β4=0という意味ですか

     [このページのトップへ]


296. Re^22: データに欠損のある生存率の比較(多重比較問題)  sb812109  2002/03/15 (金) 00:08
ビジネスでは,数百の"仮説"を同時に"検証"することは,
希ではありません。何分,依頼者が求めるものですから,,。

4つの仮説を同時に検定が出来るのであれば,10個の仮説を
一度に検定しても悪い理由はありません。そこで,検定すべき
仮説を10個とします。10個の説明変数が有意に達する組み
合わせは,2の10乗=1024通りあります。
ここで,100の研究グループが同様のデータ収集,解析を行
ったとします。いく通りのユニークな有意な説明変数の組み合
わせに達するでしょう?

(1)極少数の有意な説明変数の組み合わせに落ち着く
   可能性としては,低いと思います。もし,そうであるな
   ら統計学など持ち出さないでも明らかでしょう。
(2)多くの(例えば,50)パターンに到達する
   十分有り得ると思います。有意な説明変数を用いて,何
   らかの合理的な御伽噺(訂正:世界観)を提示すること
   は,専門家であれば,極く容易でしょう。つまり,50
   個もの同様に確からしい答えが提示・主張されることに
   なります。

質問:この様な状況は,真偽を追究する研究の分野において好ま
しいと思いますか?好ましくないと思いますか?

     [このページのトップへ]


298. Re^23: データに欠損のある生存率の比較(多重比較問題)  Taku  2002/03/15 (金) 19:06
> 質問:この様な状況は,真偽を追究する研究の分野において好ま
> しいと思いますか?好ましくないと思いますか?

(2)のようなケースは好ましくないですね
確かにまずいですね

しかし,興味のある2値の目的変数に影響を与えるのは通常,複数の要因がかかわっていて
どの要因が重要であるかがわからないことは多々あると思います

(2)の問題を回避するには,個々の要因だけを動かし,他の要因をコントロールした上での
個々の実験系で行うべきだ
ということになりますか?

ただ,今回,実験系だけでなく
実際植物が生えている野外で環境測定をしながら実験を行った時に
私が想定していなかった環境要因が重要である可能性がみえてきて
野外でやって本当によかったと思いました

そういう意味で,多くの要因が同時に動いてしまっている状況下(現実世界)での
実験を解析する方法論も考える必要があるように思いますが(スクリーニングとして,)

     [このページのトップへ]


283. Re^18: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/12 (火) 20:24
>「構造的0」とは初めて聞く言葉です。2X2分割表の4つのセル
>の内の1個が0であるような事なのでしょうか?

エベリット(1977)によると,変数のある種の組み合わせが不可能で
そのセルが0となってしまうこと
サンプル数が少ないために生じる”サンプリング0”とは違う

ということです
対数線形モデルではサンプリング0とは別に対処法があるようです

ところで私の解析で生じる構造的0は,
以下の理由で生じます
(267で述べた例は必要なかったです)
簡略化した例
種  A        B
親 1 2 3 4  1 2 3 4

生 * * - -  - - * *
死 * * - -  - - * *
-が構造的0で,*が普通に数字のはいるセル
すなわち,種と親はありえない組み合わせが存在してしまうのです
(親は種にネストしている構造があり,クロスしていない
=親1が種Aでもあり種Bでもあるという状況は存在しない)

目的変数:生死,説明変数:種と親でロジスティック回帰をすると
構造的0があるためだと思いますが計算できません
どうすればよいのでしょうか

毎度文章が長くなりすみません
よろしくお願いします

     [このページのトップへ]


286. Re^19: データに欠損のある生存率の比較(構造的0のこと)  sb812109  2002/03/12 (火) 23:04
> 目的変数:生死,説明変数:種と親でロジスティック回帰をすると
> 構造的0があるためだと思いますが計算できません

ロジスティック回帰分析を適用することになんの不都合もないと思い
ますが。

     [このページのトップへ]


289. Re^20: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/13 (水) 17:21
> > 目的変数:生死,説明変数:種と親でロジスティック回帰をすると
> > 構造的0があるためだと思いますが計算できません
>
> ロジスティック回帰分析を適用することになんの不都合もないと思い
> ますが。

StatView5でロジスティック解析を行うと
”誤差行列が特異行列になりました.この問題は共線性を有する共変量があるために起こります”
というメッセージがでて解析できません

後でソフト会社に問い合わせてみようと思いますが
ソフトの計算方法が特殊なためでしょうか

     [このページのトップへ]


291. Re^21: データに欠損のある生存率の比較(構造的0のこと)  青木繁伸  2002/03/13 (水) 19:28
難しいお話なので,横で読ませていただいているだけでしたが,

> StatView5でロジスティック解析を行うと
> ”誤差行列が特異行列になりました.この問題は共線性を有する共変量があるために起こります”
> というメッセージがでて解析できません

「誤差行列」というのがよく分かりませんが,後半の説明は多重共線性があるので,計算の途中で逆行列が求まらないということでしょう。

相関の高い独立変数を除いて解析してみてください。

     [このページのトップへ]


293. Re^22: データに欠損のある生存率の比較(構造的0のこと)  sb812109  2002/03/13 (水) 21:18
> 難しいお話なので,横で読ませていただいているだけでしたが,
>
> > StatView5でロジスティック解析を行うと
> > ”誤差行列が特異行列になりました.この問題は共線性を有する共変量があるために起こります”
> > というメッセージがでて解析できません
>
> 「誤差行列」というのがよく分かりませんが,後半の説明は多重共線性があるので,計算の途中で逆行列が求まらないということでしょう。
>

青木先生の指摘に尽きます。

Logistic 回帰のせいではありません。
StatView5 のせいでもありません。
あなたのせいです。(傷口に塩を擦り付けるような言い方ですが m()m)

> 最後に水準数が多すぎて0のセルが多発してしまう対策である
> 水準をまとめる方法について伺わせてください

水準をどう纏めるかは,次の3つの要素に依存します。
(1)検証すべき仮説
(2)統計学的根拠
(3)当該分野に関する深い知識
頑張って下さい。

     [このページのトップへ]


294. Re^23: データに欠損のある生存率の比較(構造的0のこと)  青木繁伸  2002/03/13 (水) 21:34
> > 最後に水準数が多すぎて0のセルが多発してしまう対策である
> > 水準をまとめる方法について伺わせてください

少し前に,別の方から「n個のダミー変数を使うとき,(平均的には)2^nのセルにデータが分散されるので,0のセルがたくさんできて云々」という発言がありましたが,これは全く変な指摘です。
確かにkカテゴリーの名義尺度に対するk-1個のダミー変数は相互の相関は0で,なおかつある二つのダミー変数で両方ともに1を取るデータは0です(あたりまえですが)。しかし,多次元クロス集計をしているわけではないので各セルの観察値が少ない(0が多い)というのとは話が全く違います。あるダミー変数と,別のダミー変数でない変数との相関は,そのダミー変数が0であるデータ数が多かろうが少なかろうが,相関はちゃんと定義されます(0であるデータ数の影響は受けません)。

あの異論を唱えた方は,この反論に答えてくれなかったですが。。。
私,間違えてますかね?

     [このページのトップへ]


297. Re^24: データに欠損のある生存率の比較(構造的0のこと)  Taku  2002/03/15 (金) 18:35
ご指摘いただき本当にありがとうございます

> 少し前に,別の方から「n個のダミー変数を使うとき,(平均的には)2^nのセルにデータが分散されるので,0のセルがたくさんできて云々」という発言がありましたが,これは全く変な指摘です。

的をはずれた質問かもしれません
ご指摘いただいた内容を少し確認させていただいてもよろしいでしょうか

>しかし,多次元クロス集計をしているわけではないので各セルの観察値が少ない(0が多い)というのとは話が全く違います。

0のセルがあってもオッズ比は0になるけど,求められるからとりあえずは計算できるということですか


>あるダミー変数と,別のダミー変数でない変数との相関は,そのダミー変数が0であるデータ数が多かろうが少なかろうが,相関はちゃんと定義されます(0であるデータ数の影響は受けません)

相関を求めるというのは
最尤法を使うときに共分散行列が必要だからということですか
(今ひとつこの辺の数式が理解できていないのですが,,)

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 018 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る