No.12339 分布の異なる複数回の実験データをまとめて検定する方法  【Sugarless】 2010/03/29(Mon) 21:01

初めて質問します。よろしくお願いします。

甲,乙の2種類のマウスから得た細胞のコロニー形成能を見る実験を行いました。
形成されるコロニー数は乙の方がやや少ない傾向ですが,その差が小さく,1回の実験ではn=3くらいしか確保できないため,t検定を行うと有意差は検出されません。
実験のたびにコロニーの数が変わるので,データを単純に混ぜることができません。仕方なく,複数回の実験で再現性を確認し,1回分のデータを傾向あり,有意差は検出できずと記載して投稿しました。
するとreviewerからは,「nを増やせば差が検出できそうだから,複数回のデータをcombineして解析してみなさい。ただし,統計手法は単純なt検定よりsophisticatedな方法が必要です」とのコメントが返ってきました。
具体的なデータは以下のような感じです。(実際はもう少し数があります)

甲1回目 23 28 30
乙1回目 25 17 26
甲2回目 47 60 43
乙2回目 55 32 40

これをどのように処理し,どの方法で検定すれば間違っていないか,具体的なことが分かる人が近くにおらず,困っています。どなたかご教授ください。
n=6としてMann-WhitneyのU検定を行うのではダメだと思うのですが。

No.12340 Re: 分布の異なる複数回の実験データをまとめて検定する方法  【青木繁伸】 2010/03/29(Mon) 21:16

> 実験のたびにコロニーの数が変わるので

ということなら,単純にマージするわけにはいかないのでしょうね。

「コロニー形成能」というのを,専門的な言葉を使わずに一般的にわかるように説明してみてください。どのようなもので,どのように測定されるものなんでしょうか?
この分野の人に聞くのが一番でしょうが,ここにそのような人がいるかどうかはわかりません。先行研究ではどのようにとりあつかわれ,どのような統計手法が使われているのかもわからないのですか?

No.12348 Re: 分布の異なる複数回の実験データをまとめて検定する方法  【Sugarless】 2010/03/29(Mon) 23:56

早速のお返事ありがとうございます。
少し説明が足らなかったようで,すみません。

決まっ た数の細胞を培地にまいて,一定時間培養すると,目に見える細胞の集塊(コロニー)がつくられます。1個のコロニーは1個の細胞に由来するので,例えば 50個の細胞をまいて10個のコロニーができた場合,その細胞集団には5個に1個の割合でコロニー形成細胞が含まれていた,というように表現します。

この質問では,できたコロニーの質ではなく数の差を問題にしています。
甲マウスの細胞と乙マウスの細胞を同数まいたとき,できるコロニーの数に有意差があれば,細胞のコロニー形成能が異なっている,ということになります。

一 般的には,2つの群にほとんど差がないか大きな差がみられるかのどちらかなので,単純にt検定を行っている論文がほとんどです。今回の私たちのデータで は,「n=3で検出できるほど大きな差はなかった」ことを示せれば十分なのですが,そのところをreviewerにつっこまれてしまい,困っている次第で す。

No.12352 Re: 分布の異なる複数回の実験データをまとめて検定する方法  【Sugarless】 2010/03/31(Wed) 15:58

自己レスです。
その後,当サイトの「統計解析手法の選択ガイド」などを参考に考えてみました。

  1回目 2回目 …

   23  47
甲  28  60  …
   30  43

   25  55
乙  17  32  …
   26  40

知りたいのは「甲群と乙群に差があるかどうか」なので,ウィルクスのΛ統計量を用いて検定を行うことで,目的が達せられる気がします。
が,この方法では,1回だけのデータが大きく異なっていても有意差を検出しそうで,妥当かどうかの判断が私にはできません。どなたか,コメントをお願いします。

No.12353 Re: 分布の異なる複数回の実験データをまとめて検定する方法  【青木繁伸】 2010/03/31(Wed) 20:36

妥当ではないですね。ウイルクスのΛ検定は,多変量正規分布の平均値の差です。つまり,2つ以上の変数は対応があ る(つまり,A さんの身長と体重,B さんの身長と体重というように)ものです。それに対してあなたのデータは,1回目と2回目…は,無関係です。つまり 23 と 47 はたまたま一番目に出ているだけで,23 と 47 に必然的な対応はなにもないということです。試しに,以下のように,1回目と2回目のデータの対応を変えると,当然ながら別の答えが出ます。どれが正しい ということはないのですから,結局,ウイルクスのΛ検定は使えないということです。
> (x1 <- matrix(c(23, 47, 28, 60, 30, 43, 25, 55, 17, 32, 26, 40), ncol=2, byrow=TRUE))
[,1] [,2]
[1,] 23 47
[2,] 28 60
[3,] 30 43
[4,] 25 55
[5,] 17 32
[6,] 26 40
> (x2 <- matrix(c(23, 60, 28, 43, 30, 47, 25, 32, 17, 40, 26, 55), ncol=2, byrow=TRUE))
[,1] [,2]
[1,] 23 60
[2,] 28 43
[3,] 30 47
[4,] 25 32
[5,] 17 40
[6,] 26 55
> wilks(x1, rep(1:2, each=3))
多変量に拡張された平均値の差の検定(ウィルクスのΛ)

データ: x1 ~ rep(1:2, each = 3)
F value = 0.569, df1 = 2, df2 = 6, P値 = 0.5939

> wilks(x2, rep(1:2, each=3))
多変量に拡張された平均値の差の検定(ウィルクスのΛ)

データ: x2 ~ rep(1:2, each = 3)
F value = 0.8781, df1 = 2, df2 = 6, P値 = 0.4629
回 答に至らないのは,やはりデータの採取法に問題があるわけで,データを取るのが難しいかどうかはさておいて,一度に 10 数個ずつのデータが得られるような実験計画を立てる必要があるだろうと言うことです。検定の枠に無理矢理データを押し込めるのではなく,検定の枠にはまる ようにデータを取るべきです。

でもまあ,査読者が「単純なt検定より sophisticated な方法が必要です」というからには,査読者には心当たりがあるのでしょうね?心当たりもないのにそんなこと言うのは無責任ですものね?

No.12356 Re: 分布の異なる複数回の実験データをまとめて検定する方法  【Sugarless】 2010/03/31(Wed) 23:46

やはりダメでしたか‥‥
説明を読んで理解したつもりになっていたのですが,基本的なことが分かっていなかったようです。ありがとうございます。

現状のデータに問題があるというのは,ご指摘の通りです。
Reviewerもおそらくそれは承知していて,ただ,今回はそれが核となるデータではないので,お目こぼしであのようなコメントなのだと思っています。
コメントの書きぶりからして,統計の専門家なら簡単に適切な方法が分かるのかと思いましたが,そんなに簡単な話ではなさそうです。追加実験も含めて,もう一度よく相談します。

拙いデータと質問にお答えいただきありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る