「統計学関連なんでもあり」の過去ログ---030

★ 原因のひとつと思われる変数が無しの者の罹患が0の時 ★

4351.　原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　2004/09/22 (水) 22:20
└4355.　Re: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　2004/09/22 (水) 23:17
　└4366.　Re^2: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　2004/09/23 (木) 11:22
　　└4368.　Re^3: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　2004/09/23 (木) 13:38
　　　└4370.　Re^4: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　2004/09/23 (木) 16:16
　　　　└4371.　Re^5: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　2004/09/23 (木) 18:27
　　　　　└4372.　Re^6: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　2004/09/23 (木) 19:41
　　　　　　└4373.　Re^7: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　2004/09/23 (木) 20:35

4351.　原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　　2004/09/22 (水) 22:20

ある病気の原因を縦断で調査しています。原因のひとつと思われる
変数が無しの者が全員その病気にならなかった。この要因の有無で累積罹患率比がとんでもない数字（689倍）になり95%信頼区間も000-999となりました。この場合，以前のスレッドをみるとその変数無しの者の罹患に0.5を加えて計算してみるとありましたが，そうすると有意でない信頼区間となりました。むしろこれは計算しないほうが良いでしょうか？その場合複合的関連を見るときも入れなくてもよいのでしょうか？

　　　　　[このページのトップへ]

4355.　Re: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　　2004/09/22 (水) 23:17

> 95%信頼区間も000-999となりました。

000 ～ 999 という数字は，実際の計算結果ではなくて，想定される計算結果を超えるから取り合えすこの値にしておこうという数値のように見えますね。確認した方がいいでしょう。

> 以前のスレッドをみるとその変数無しの者の罹患に0.5を加えて計算してみるとありましたが，そうすると有意でない信頼区間となりました。

前のような無責任な（？）結果を出すのではなくて，0.5 を加えて計算しましょうというのが，一般の教科書に書いてあることでしょうから，それに従った計算をするのがお勧めでしょう（000～999などという結果を投稿すると，査読者はあきれるでしょう）。

> むしろこれは計算しないほうが良いでしょうか？

いいか悪いかは，研究（調査）デザインによるでしょう。要因有り群で結果が0であるといっても，結果が十分期待できるだけの追跡観察時間があったのか，対象集団のサンプルサイズが十分であったかどうか。
それは，ある意味では，統計学が答えられる問題ではないでしょう。

＞その場合複合的関連を見るときも入れなくてもよいのでしょうか？

おっしゃっている意味が良く理解できません（最近，理解力が乏しくなった。歳のせいだ）。

　　　　　[このページのトップへ]

4366.　Re^2: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　　2004/09/23 (木) 11:22

青木先生
ありがとうございました。原因のひとつと思われる変数が無しの者の罹患が0人であった場合，95%信頼区間を000-999は無責任な数なのでむしろ0.5を加えたほうが良いと解りました。

もうひとつ質問させてください。
もし，原因のひとつと思える要因が有る，無しではなく，別の回答方法で罹患がいつも0人，ときどき8人，ほとんどない10人，ない19人の場合，いつもを 0.5にして3つのダミー変数を作るよりも，いつも，とときどきを有りとし，ほとんどない，ないを無しとし2値で解析した方が良いでしょうか？
縦断研究でこの病気になった人が37人ならなかった人は921人でした。複合的関連を見る時こうした変数（回答0があり，95%信頼区間が数値が大きすぎ不安定？の場合は投入しないほうが良いでしょうか？

　　　　　[このページのトップへ]

4368.　Re^3: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　　2004/09/23 (木) 13:38

> もし，原因のひとつと思える要因が有る，無しではなく，別の回答方法で罹患がいつも0人，ときどき8人，ほとんどない10人，ない19人の場合，いつもを 0.5にして3つのダミー変数を作るよりも，いつも，とときどきを有りとし，ほとんどない，ないを無しとし2値で解析した方が良いでしょうか？

なんで，いきなり二値データにおとすんでしょう。
ときどき8人，ほとんどない10人，ない19人の3カテゴリーのデータとして扱えばいいのでは？

　　　　　[このページのトップへ]

4370.　Re^4: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　　2004/09/23 (木) 16:16

> > もし，原因のひとつと思える要因が有る，無しではなく，別の回答方法で罹患がいつも0人，ときどき8人，ほとんどない10人，ない19人の場合，いつもを 0.5にして3つのダミー変数を作るよりも，いつも，とときどきを有りとし，ほとんどない，ないを無しとし2値で解析した方が良いでしょうか？
>
> なんで，いきなり二値データにおとすんでしょう。

青木先生ありがとうございました。
目からうろこ状態です。いつもは0人だったのでときどき，ほとんどない，ないの3カテゴリーで解析した。結果・・・と表現すれば良いですね。ありがとうございました。・・・でも，いつもと回答した人に罹患者は0だったのですが，いつもと回答して罹患しなかった人85人のデータは使わないのでしょうか？・・・なんかおかしな質問でしょうか？

・・で複合的関連ですが・・多重ロジスティック回帰分析をする時でも3値で投入すれば言い訳ですか？罹患した人が37人，しなかった人が921人ですからあまり多くの変数でダミー変数を作ってもだめかな？と思い2値しようかと思ったのですが・・
。

> ときどき8人，ほとんどない10人，ない19人の3カテゴリーのデータとして扱えばいいのでは？

　　　　　[このページのトップへ]

4371.　Re^5: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　　2004/09/23 (木) 18:27

> でも，いつもと回答した人に罹患者は0だったのですが，いつもと回答して罹患しなかった人85人のデータは使わないのでしょうか？・・・なんかおかしな質問でしょうか？

「いつも」と「ときどき」を併合すればいいのでは？

> ・・で複合的関連ですが・・多重ロジスティック回帰分析をする時でも3値で投入すれば言い訳ですか？罹患した人が37人，しなかった人が921人ですからあまり多くの変数でダミー変数を作ってもだめかな？と思い2値しようかと思ったのですが・・

集計表の結果としてみるから観察度数が0が気になるのでしょう。
データ行列として見れば何の不思議もない。
多重ロジスティックモデルで分析するときは4カテゴリーのまま使えばいいでしょう。
それで不都合だったら「いつも」と「ときどき」を併合すればいい。
情報を捨てるのはなるべく避ける。カテゴリーをまとめるというのは，情報を捨てることです。

分析は，柔軟な考えでやりましょう。
まず，やってみればいい。
やってみて比較してみれば，情報を捨てない方がいいか，カテゴリーをまとめた方が解釈しやすくなるかわかる。
ただ，カテゴリーをまとめるのを恣意的にやってはいけませんが。

　　　　　[このページのトップへ]

4372.　Re^6: 原因のひとつと思われる変数が無しの者の罹患が0の時　鈴木　　2004/09/23 (木) 19:41

ありがとうございました。
情報をなるべく捨てない。よくわかりました。
まず，気になる0には0.5を加えてやってみます。
多重ロジスティックは4カテゴリーでやってみます。

　　　　　[このページのトップへ]

4373.　Re^7: 原因のひとつと思われる変数が無しの者の罹患が0の時　青木繁伸　　2004/09/23 (木) 20:35

> まず，気になる0には0.5を加えてやってみます。

0に0.5を加えるのは，分析手法によるわけです。
だって，ある事象があったとき1，なかったとき0というデータでいいときに，なかったとき0の代わりに0.5にするんですすか？どんなときに0.5にするんですか。
マニュアルに従って，何にも考えずにデータ解析しては＊だ＊め＊で＊す＊。
別のスレッドですが，「割合（比率データ）を解析するときに逆正弦変換が必要」というお題目に従って，「濃度（%）データも逆正弦変換しないといけないのか？」というのも，よ～～く考えてみると変だというのはすぐわかる（濃度の分母と分子と，割合のデータの場合の分母と分子の違いを考慮すれば変だとすぐにわかるはず）。
要するに，データを変換するのは，その必要性・必然性があるときのみです

　　　　　[このページのトップへ]