「統計学関連なんでもあり」の過去ログ--- 042

No.08981　各群で比率の違いを知りたい場合　　【VITA】　2009/01/21(Wed) 17:30

統計学に詳しくありません．易しくおしえていただけると幸いです．

財布に入っている小銭の中に，百円玉を何枚もっているかを調査したとします．
（例ですので，現実的な数字ではありません．）
以下のような結果であった時，各群の百円玉の割合に違いがあるかどうか知りたいとします．

-------------
A群（200人）
百円　百円以外　％
　4　　　8　　　50
　7　　　16　　44
　2　　　40　　　5
　1　　　25　　　3
：　　：　：
-------------
B群（300人）
百円　百円以外　％
　5　　　20　　25
　5　　　40　　13
：　　　：　　：
-------------
C群（150人）
百円　百円以外　％
　6 　　25　 24
　4　　　8　　 50
　：　　：　　　：
-------------

まったく違うかもしれませんが，以下のように考えてみました．
ご指摘をお願いいたします．

「平均の割合」を考えた場合，以下の2通りが考えられると思います．
＜例：　A群が4名であった場合＞
方法1：（4＋7＋2＋1）/（8＋16＋40＋25）＝15.7％
方法2：（50＋44＋5＋3）/4＝25.5％

上記の方法のどちらを選択するかは，「何が重要であるか」によって，変わるのではないかと考えます．検定方法を以下のように考えました．

＜方法1のように解釈する場合＞
カイ二乗検定後に多重比較
（この場合，母数のことを考えなければならないため，これではよくない気がしますが
母数についてよく理解できていません．）

＜方法2のように解釈（単純に％を数値として見なす）する場合＞
分散分析後に多重比較
（％の平均値が異なるかどうかを見るという考え方をしました）

各群に差があるのかないのか，どうしても調べなければなりません．
お力を貸してください．

No.08984　Re: 各群で比率の違いを知りたい場合　　【青木繁伸】　2009/01/21(Wed) 18:42

二つの方法の違いは，重み付けするか，重み付けしないで単に平均を取るかという違いであることは，あなたのおっしゃるとおりです。

そして，そのどちらがよいかは明らかな場合もあるし，分野によってはあるいは対象によっては後者のように扱うことが普通の場合もあると言うことではないですか。

実際あなたが直面しているデータではない100円玉の例からは，どちらがふさわしいかは判断できないでしょうね。

No.08990　Re: 各群で比率の違いを知りたい場合　　【VITA】　2009/01/22(Thu) 14:05

青木先生，ありがとうございます．

方法1か2か，どちらがふさわしいかについては，何を知りたいのかを考え，使い分けたいと思います．各グループ全体の割合を尊重するのか（方法1），1人ずつの割合を尊重するのか（方法2）によって，使い分けようというイメージを持っています．
今回は，重視したいのは「個人の割合」なので，方法2で解析しようと思います．ありがとうございます．

方法2を使いたいからでしょうか．＜方法1＞がしっくりこないので，確認をさせてください．
方法1を行うと決めた場合ですが，カイ二乗検定では，以下のような分割表にて検定をすることになると思います．

　　　　　A群　B群　C群
百円　　　a　　b　　c
百円以外 d　　e　　f

この場合，a＝A群200名の百円の合計枚数，b＝B群300名の百円の合計枚数・・・となりますが，これでよいでしょうか．

No.08991　Re: 各群で比率の違いを知りたい場合　　【青木繁伸】　2009/01/22(Thu) 14:11

> この場合，a＝A群200名の百円の合計枚数，b＝B群300名の百円の合計枚数・・・となりますが，これでよいでしょうか．

それはまずいでしょう。

観察単位が貨幣になっていますよ。
元のデータは，個人・百円玉の枚数・百円玉以外の枚数という3層データです。

No.08992　Re: 各群で比率の違いを知りたい場合　　【VITA】　2009/01/22(Thu) 15:19

青木先生
わからなくなりました．観察単位が貨幣になっているというのはどういうことでしょうか．分割表を作成する際，どのようなデータになるのか，教えていただけませんでしょうか．お願いいたします．

No.08995　Re: 各群で比率の違いを知りたい場合　　【青木繁伸】　2009/01/22(Thu) 17:49

> 観察単位が貨幣になっているというのはどういうことでしょうか

No. 8990 の集計表の総合計は，全員が持っている貨幣の総数ですが，それでいいのでしょうか？

No. 8981 の % の集計対象の総数は A, B, C 群のケース数（人数）の合計人数ですよね。

100円玉とそれ以外ということで，A,B,C の群を説明変数としてプロビットモデルで群に対する係数の比較をおこなうとか？（二群の比較はボンフェローニで）
set.seed(123)
n.A <- sample(10:40, 200, replace=TRUE)
n.B <- sample(10:40, 300, replace=TRUE)
n.C <- sample(10:40, 150, replace=TRUE)
r.A <- sapply(n.A, sample, size=1)
r.B <- sapply(n.B, sample, size=1)
r.C <- sapply(n.C, sample, size=1)
n.B <- round(n.B*1.1)
n.C <- round(n.C*1.2)
d <- rbind(cbind(r.A, n.A-r.A), cbind(r.B, n.B-r.B), cbind(r.C, n.C-r.C))
g <- factor(rep(LETTERS[1:3], c(200, 300, 150)))
ans <- glm(d~g, family=binomial)
summary(ans)
　結果
glm(formula = d ~ g, family = binomial)
  略
Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.01311    0.02819  -0.465   0.6418    
gB          -0.08097    0.03591  -2.255   0.0241 *  
gC          -0.30955    0.04104  -7.542 4.62e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
　略

No.08999　Re: 各群で比率の違いを知りたい場合　　【VITA】　2009/01/22(Thu) 21:51

青木先生，何度も，ご回答をいただきありがとうございます．

> No. 8990 の集計表の総合計は，全員が持っている貨幣の総数ですが，それでいいのでしょうか？
> No. 8981 の % の集計対象の総数は A, B, C 群のケース数（人数）の合計人数ですよね。

No. 8981にて，
＜方法1＞は，各群で集まった小銭中に百円玉は何枚あるのかを比較する
＜方法2＞は，個人の百円玉保持率の平均値を比較する
というイメージを持っていました．
分割表で，総数が人数（650名）になるような表が思い浮かばなかったので，しっくりこなかったのだと思います．

> 100円玉とそれ以外ということで，A,B,C の群を説明変数としてプロビットモデルで群に対する係数の比較をおこなうとか？（二群の比較はボンフェローニで）

プロビットモデルは知らないのでこれから勉強します．

今回は，No. 8981での＜方法2＞で，個人の百円玉保持率を単純に数値とみなして，3群で分散分析を行いたいと思います．
色々と教えていただき，ありがとうございました．また質問することがあると思いますので，どうぞよろしくお願いいたします．