★ 二項目間のカイ二乗検定の繰り返し ★

96. 二項目間のカイ二乗検定の繰り返し 佐藤敦 2003/06/10 (火) 02:21
├112. Re: 二項目間のカイ二乗検定の繰り返し 佐藤敦 2003/06/10 (火) 21:59
│├116. Re^2: 二項目間のカイ二乗検定の繰り返し 青木繁伸 2003/06/10 (火) 23:12
││└117. Re^3: 二項目間のカイ二乗検定の繰り返し 佐藤敦 2003/06/10 (火) 23:36
│└114. Re^2: 二項目間のカイ二乗検定の繰り返し 青木繁伸 2003/06/10 (火) 22:41
├101. Re: 二項目間のカイ二乗検定の繰り返し 青木繁伸 2003/06/10 (火) 10:28
└98. Re: 二項目間のカイ二乗検定の繰り返し まきば 2003/06/10 (火) 03:44


96. 二項目間のカイ二乗検定の繰り返し 佐藤敦  2003/06/10 (火) 02:21

言語学を勉強している者で,統計学についてはズブの素人です。統計について調べているうちにここにたどり着きました。極めて基本的なことなのかも知れませんが,質問に答えていただけると嬉しいです。ある言語に,A,B,C という3つの単語があって,これらが従属節の中に出てくる率を比べたいと思い,次のようなクロス表を作ってカイ二乗検定を行いました。
    従属節の中   従属節の外   計
単語A   151        75     226
単語B    91      112     203
単語C    30      174     204
計     272       361     633
X2=119.22, df=2, p<0.001

これだと,「従属節の中に出てくるか外に出てくるか」ということと「単語の種類」の間に関係があるということしか言えませんよね?結論として出したいのは「A > B > C の順で,従属節の中に出てくる割合が多い」ということです。このことを言うためには,AとC,AとB,BとCの組み合わせで2×2のクロス表を作り,この3つの組み合わせすべてにおいて有意差が見られることを示せばよいのでしょうか?それとも,このように2つずつの組み合わせについて検定を行うのは良くないことなのでしょうか?母平均の差の検定でこのような繰り返しを行うのは良くないと聞きましが,上のようなデータの場合も同様なのでしょうか?本当に基本的なことなのかもしれませんが,よろしくお願いします。

     [このページのトップへ]


112. Re: 二項目間のカイ二乗検定の繰り返し 佐藤敦  2003/06/10 (火) 21:59
青木先生,まきばさん,素速いご回答ありがとうございます。
実は,杉田暉道・栃久保修『統計学入門』(医学書院)に,
鉤虫卵の寄生率
    工業地区 商業地区 住宅地区 農村地区
 陽性   18     7      7    14
 陰性  1182     893      1493    686
という例題(p.99)が出てきまして,6組のクロス表を作って
カイ二乗検定を繰り返すと,
 農・工(有意差無) 商・農(5%有意) 農・住(0.5%有意)
 工・住(1%有意) 工・商(有意差無) 商・住(有意差無)
 
という結果が出るので,

農業地区と工業地区のグループ>商業地区と住宅地区のグループ

に分けられるという解答例が出ています。これも本当はやってはいけないんですか?

     [このページのトップへ]


116. Re^2: 二項目間のカイ二乗検定の繰り返し 青木繁伸  2003/06/10 (火) 23:12


Tukey の方法で多重比較すると以下のような結果になります。
★ 全体としての比率の差の検定(4×2分割表)

     ケース数 陽性数  比率
工業地区   1200    18  0.01500
商業地区   900    7  0.00778
住宅地区   1500    7  0.00467
農村地区   700    14  0.02000
全体     4300    46  0.01070

カイ二乗値 …  13.70262
自由度 ………  3
p値 …………… 0.0033392 **

★ Tukey 法による多重比較

     ケース数 陽性数  比率
農村地区   700    14  0.02000
工業地区   1200    18  0.01500
商業地区   900    7  0.00778
住宅地区   1500    7  0.00467
全体     4300    46  0.01070

● 農村地区と住宅地区の比較
平均比率 ……………… 0.01069767
差の標準誤差 ………… 0.004708970
観察された比率の差 … 0.01533333
WSD ……………………   0.01209763
有意な差です

● 工業地区と住宅地区の比較
平均比率 ……………… 0.008888889
差の標準誤差 ………… 0.003635219
観察された比率の差 … 0.01033333
WSD ……………………  0.008929489
有意な差です

以上の結果は全て有意です(有意水準 5%)
上記以外の組合せでは有意な差は認められません

     [このページのトップへ]


117. Re^3: 二項目間のカイ二乗検定の繰り返し 佐藤敦  2003/06/10 (火) 23:36
青木先生,疑問が氷解しました。ありがとうございました。

     [このページのトップへ]


114. Re^2: 二項目間のカイ二乗検定の繰り返し 青木繁伸  2003/06/10 (火) 22:41
> という例題(p.99)が出てきまして,6組のクロス表を作って
> カイ二乗検定を繰り返すと,
>
>  農・工(有意差無) 商・農(5%有意) 農・住(0.5%有意)
>  工・住(1%有意) 工・商(有意差無) 商・住(有意差無)
>  
> という結果が出るので,
>
> 農業地区と工業地区のグループ>商業地区と住宅地区のグループ
>
> に分けられるという解答例が出ています。これも本当はやってはいけないんですか?

本当はというかなんというか,検定を6回行ったわけで,個々の検定の危険率が5%だとして,6つの検定結果を統合して結果を述べると,全体としてその陳述が間違えている危険率は 1-(1-0.05)^6= 0.264908109 にもなってしまうということです。

いずれにしろ検定の多重性は怖い,ということですね。


陽性率のグループ分けは, 検定結果に基づかなくても,データをみるだけで(農業・工業地区)と(商業・住宅地区)というのは容易にわかることですね。
話は微妙になるのですが,例数が多いときには本の小さな差でも有意になりやすいので,検定結果に基づいてグループ化するよりは,実質的な意味(つまり,陽性率)に基づいてグループ化する方がいいことだってあるのです。

     [このページのトップへ]


101. Re: 二項目間のカイ二乗検定の繰り返し 青木繁伸  2003/06/10 (火) 10:28
95%信頼限界を出して,以下のようにまとめるので,目的は達成できるのではないでしょうか。
    下側信頼限界  上側信頼限界
単語A      0.603        0.729
単語B      0.379        0.519
単語C      0.101        0.203
> このように2つずつの組み合わせについて検定を行うのは良くないことなのでしょうか?母平均の差の検定でこのような繰り返しを行うのは良くないと聞きましが,上のようなデータの場合も同様なのでしょうか?

多重比較という観点からは,同じことです

     [このページのトップへ]


98. Re: 二項目間のカイ二乗検定の繰り返し まきば  2003/06/10 (火) 03:44
>?結論として出したいのは「A > B > C の順で,従属節の中に出>てくる割合が多い」ということです。このことを言うためには,

私のやりたいことにも通じてきますが,カイ2乗の傾向検定でも良いような気がしますが,どうなのでしょうか??
(参考にならずにすみません)もしくはコクラン・アーミテージ検定??私はこの2者の使い分けが今ひとつ分からないので,便乗質問させていただければ幸いです。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 025 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る