「統計学関連なんでもあり」の過去ログ--- 041

No.05705　カイ2乗検定について　　【統計初心者】　2008/02/04(Mon) 20:31

ある実験で，陽性率，陰性率の比較をコントロール群(陽性率ほぼ100%)と比較してどうかという検定を行いたいのですが，3回の実験データとして下記のようなデータが出ている実験を3回行いました。control,試薬A,試薬Bの陽性率を3回求めて，これをANOVA と多重比較検定してその差を出そうとしましたが，先輩からそれはカイ2乗検定をするべきではないのかと言われました。こういった解析のときはカイ2乗検定になるのでしょうか。またカイ2乗検定をする場合はどの群とどの群に差があるかを検定する場合，どういった手法をとるのでしょうか？

実験1    control 試薬A 試薬B 合計
陽性       31      27     2   60
陰性        1       3    30   34
合計       32      30    32   94

実験2    control 試薬A 試薬B 合計
陽性       12      14     0   26
陰性        0       2    14   16
合計       12      16    14   42

実験3    control 試薬A 試薬B 合計
陽性       12      14     0   26
陰性        2       0    12   14
合計       14      14    12   40

また，単純な疑問として，試薬Bの陽性率は明らかに他の2群と比べて低いのですが，このようなデータでも統計解析で有意差を出さないといけないものなのでしょうか？

すいません，あまりにレベルの低い質問ですがよろしくご回答ください。

No.05712　Re: カイ2乗検定について　　【青木繁伸】　2008/02/04(Mon) 21:40

実験1，2，3　の違いはなんなのでしょうか。3つに分けて分析しなければならないほど異質のものなんでしょうか。プールして分析はできないものか？という意味ですが。

> 試薬Bの陽性率は明らかに他の2群と比べて低いのですが，このようなデータでも統計解析で有意差を出さないといけないものなのでしょうか？

たとえば
試薬X 陽性 0，陰性10
試薬Y 陽性 4，陰性6
明らかな差があると思いますか？
実際に検定したらどうなりますか？
0％と40％だから明らかな差がありそうですが，fisherの正確検定では5%有意ではないですね

明らかに差があると思って，検定してみて有意だったらそれで良いじゃないですか
検定すれば良いだけなんですから

ニュアンスの問題なのですが「統計解析で有意差を出す」というのがくせ者なのかも
検定というのは「有意差を出す」ものではないでしょう。「有意差が出せたら論文になる」みたいな雰囲気ですよね。
そうではなく，「有意な差があるかどうか確かめる」ものでしょう。「確かめる=テストする=検定する」です。

No.05713　Re: カイ2乗検定について　　【青木繁伸】　2008/02/04(Mon) 21:45

No. 5663 にも書いたが，

まずは，以下を参照のこと

K 群の比率の差の検定・多重比較
* ライアンの方法
　　　　http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/Pmul-Ryan.html
* テューキーの方法
　　　　http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/Pmul-Tukey.html

No.05714　Re: カイ2乗検定について　　【統計初心者】　2008/02/04(Mon) 22:02

青木先生，さっそくのご回答ありがとうございます。

>実験1，2，3　の違いはなんなのでしょうか。

実験自体の質はまったく違いません。再現性を取ると言う意味もあって3回実験を行いました。n数が異なるのは，実験のスケールが各回で異なるためです。
また，3回実験した理由は，よく実験データを見せるグラフではデータの平均値にエラーバーとして2×SD(標準偏差)のバーをつけて表示するのですが，この場合は3回の実験の陽性率の平均とSDを求めるために3回実験を行ったということです。

＞No. 5663 にも書いたが，

＞まずは，以下を参照のこと

つまり，この実験は3回のデータを統合(プール？)してカイ2乗検定で行って，ライアンの方法かテューキーの方法でどこに差があるかを見つければ良いのですね？

No.05715　Re: カイ2乗検定について　　【青木繁伸】　2008/02/04(Mon) 22:29

> この場合は3回の実験の陽性率の平均とSDを求めるために3回実験を行ったということです。

えと。たとえば，コントロールの比率 0.96875，1，0.857142857 の3つの数値から SE を計算してそれを表示するというようなことなのでしょうか？n=3とみるわけですか？n=3 じゃちょっと少なすぎるでしょう（nをこのように定義するのに賛成なわけではないけど）

比率にも SE はあるんですよ

3つの実験をプールすると以下のようになりますよ。ここでは，n サンプルサイズはそれぞれの個体が単位として数えられていますよね。つまり，全部で50～60もあるサンプルをたかだか3というサンプルサイズに勘定して良いかと言うことですね。
おまけに，実験ごとに個体数がちがうのだから，それを対等に1と勘定して良いかどうかも疑問があるでしょう？つまり，もし実験のスケールが1000のものと 10のものを同じ1として勘定するとすれば不自然でしょう（例の場合だって，実験1は実験2，3の倍のサイズなのに同じ重みで扱っているでしょう？）
プール control 試薬A   試薬B    合計
陽性     55      55       2      112
陰性      3       5      56       64
合計     58      60      58      176
陽性率   0.948   0.917   0.034   0.636
SE       0.029   0.036   0.024   0.036