「統計学関連なんでもあり」の過去ログ--- 041

No.07064　二項分布におけるPの推定??　　【実験者1】　2008/07/18(Fri) 14:23

植物の種子に薬剤を与えて発芽した種子を数える実験を行っています。何も与えない種子に比べて薬剤を与えた種子の発芽率が有意に増えることを示したいと考えています。試験は3連で行いました。
薬剤有りの場合
発芽率＝（発芽した種子）/（総種子数）=60/100,　32/50,　80/120
薬剤無しの場合
発芽率＝（発芽した種子）/（総種子数）=10/100,　20/150,　7/50
まず私は安易に，発芽率を計算してt検定などで発芽率に有意に差があることを示そうとしましたが，不適切であると考えました。理由は総種子数の違う各々のデータはそれぞれ信頼度がちがうからです。
次に，この点を解消するため，カイ二乗検定を行えばいいのではと考えました。しかしそうすると，薬剤有りのデータが3つ，薬剤無しのデータが3つあるので合計して9回検定を行うことが必要になるのではと考えました。これでは結果の記述の仕方などが複雑で，もっとうまくまとめられる方法がないか考えました。
しかし，ここから思考が停止してしまいどのようなデータの処理をしたらいいのか全くわからなくなりました。一つ考えたのは60/100,　32/50,　 80/120というデータからそのまま二項分布におけるPを推定できないかということです。前述しましたが，ただ単に平均を取るなどとすると，種を270 個も使った意味がなくなってしまうので，別の方法でP（発芽率）を求められないかと考えています。
何か適切な方法でも参考になる考え方でもありましたら，回答の程よろしくお願いします。

No.07065　Re: 二項分布におけるPの推定??　　【青木繁伸】　2008/07/18(Fri) 14:39

なぜ薬剤の有無別に3通りの実験があるのでしょうか？
他の条件が違うのでしょうか。
また，たとえば100個なら100個の種子を広い区画に播いたのでしょうか，あるいは，小さな区画に（たとえば複数の小さな植木鉢に分けて）播いたのでしょうか？？
3つに分けたのがたまたまということなら，「総発芽数 / 総種子数」でよいのでは？
60/100,　32/50,　80/120 を別々にして発芽率を推定するよりは良いと思いますし（そうすれば，薬剤有り無しでの発芽率の検定も問題ないですし。）
そもそも，3つの実験の条件が違うとすれば，それらを無視して3つの発芽率を統合することはできないでしょう。

No.07070　Re: 二項分布におけるPの推定??　　【実験者1】　2008/07/18(Fri) 15:08

回答ありがとうございます。説明不足でたいへん申し訳ありません。
薬剤の有無別に3通りの実験について
3通りの実験の条件は同じです。ただ植木鉢のような小さな区画に100粒程度ずつ種をまいています。つまり3つの鉢を使ったことになります。鉢ごとに種子の数を数えたデータが3つあるという事です。
私の不勉強なところがあり，当初は3つのデータを得て，平均と分散を出そうと思ったことが理由です。しかし何度も書いていますが，鉢ごとに種の数が違うので相加平均を出すのは不適だとあとで気づきました。しかし実験結果ををまとめるうえで3つのデータの代表値のようなものと，その誤差のようなものが統計的に記述できればいいかと考えていますが，どうすれば良いかわかりません。

No.07073　Re: 二項分布におけるPの推定??　　【青木繁伸】　2008/07/18(Fri) 15:19

まず，比率データについて平均値や分散というのはなじまないですね。

> 実験結果ををまとめるうえで3つのデータの代表値のようなもの

種子数が違うので発芽率の平均を求めるのにためらいがあるということですね。。

では，種子数を重みとした発芽率を求めてみましょうか？

60/100,　32/50,　80/120　の方を考えますね。

重みは，「その鉢の種子数 / 全体の種子数」でしょ？ということは，100/270, 50/270, 120/270 です。それぞれの発芽率に賭けて合計すると，

(60/100)*(100/270)+(32/50)*(50/270)+(80/120)*(120/270)
=(60+32+80) / (100+50+120)
ということで，先に提案した「総発芽数 / 総種子数」ですよ。
そして，この発芽率は，最尤推定値です（簡単ですけどね）

蛇足ですが，重み付きの平均と重みのない平均の関係について。
重みのない平均は，当然ながら重みがないのではなくて，重みが等しい。今の場合なら重みが 1/3，1/3, 1/3 ということ。これを発芽率に掛けて合計すると，

(60/100)*(1/3)+(32/50)*(1/3)+(80/120)*(1/3)
=(60/100 + 32/50 + 80/120) / 3
ということで，3つの発芽率の単純な平均。

No.07077　Re: 二項分布におけるPの推定??　　【実験者1】　2008/07/18(Fri) 15:59

回答ありがとうございます。

＞まず，比率データについて平均値や分散というのはなじまないですね。

最尤法というものがあるのを初めて知りました。勉強したいと思います。
同じようにして区間推定もできるのでしょうか。

また，これらのデータで当初の目的である，『何も与えない種子に比べて薬剤を与えた種子の発芽率が有意に増えることを示す』には最尤推定量の比較することや，総発芽数/総種子数をもちいてカイ2乗検定を行えばよいのでしょうか。

No.07078　Re: 二項分布におけるPの推定??　　【青木繁伸】　2008/07/18(Fri) 16:29

最尤法というと何かすごいもののように思うかも知れませんが，単なる標本比率ですよ。

> 同じようにして区間推定もできるのでしょうか

標本発芽率から母比率の信頼区間を出すのですね。以下を参照
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/bohiritu-conf.html

> 総発芽数/総種子数をもちいてカイ2乗検定

　　　　　発芽　非発芽　合計
薬剤有り　172　　98　　　270
薬剤なし　37　　263　　　300
合計　　　209　 361　　　570

でカイ二乗検定しても良いし，二群の比率の差の検定でも同じ結果（P値）になりますよ。

No.07086　Re: 二項分布におけるPの推定??　　【実験者1】　2008/07/18(Fri) 21:07

回答ありがとうございました。
母比率の信頼区間や二群間の比率の差の検定の項目を読み大変勉強になりました。
わかりやすいせつめいで大変ためになりました。ありがとうございました。

No.07090　Re: 二項分布におけるPの推定??　　【ごう】　2008/07/19(Sat) 00:18

R（統計用のフリーソフト）で
a<-c(60,32,80,10,20,7)#分子
b<-c(100,50,120,100,150,50)#分母
treat<-c(1,1,1,0,0,0)#処理の有無
random<-c(1,2,3,4,5,6)#鉢のID

library(glmmML)
model<-glmmML(cbind(a,(b-a))~treat,cluster=random,family=binomial)
summary(model)
とすると
Call: glmmML(formula = cbind(a, (b - a)) ~ treat, family = binomial, cluster = random)

coef se(coef) z Pr(>|z|)
(Intercept) -1.961 0.1756 -11.17 0
treat 2.524 0.2164 11.66 0

Standard deviation in mixing distribution: 1.874e-09
Std. Error: 0.129

Residual deviance: 1.842 on 3 degrees of freedom AIC: 7.842
と出力されますね。
一般化線型モデル（ロジスティック回帰），一般化線形混合モデル，オッズ比あたりをキーワードに調べるとここでやっていることが分かるかも知れません。
鉢のIDなんていう変数をつかっているのは，植木鉢ごとによくわからない（観測しなかった）何らかの要因によって発芽率に影響を与えていることを考慮しているためです。今回のデータではIDなる変数は使わなくても良さそうな結果となっていますね。