★ 正規近似による母比率の検定vsカイ二乗適合度検定etc. ★

7252. 正規近似による母比率の検定vsカイ二乗適合度検定etc. in silico 2005/07/22 (金) 19:10
└7253. Re: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸 2005/07/22 (金) 21:21
 ├7256. Re^2: 正規近似による母比率の検定vsカイ二乗適合度検定etc. in silico 2005/07/23 (土) 11:47
 │└7257. Re^3: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸 2005/07/23 (土) 15:58
 └7255. Re^2: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸 2005/07/22 (金) 22:04


7252. 正規近似による母比率の検定vsカイ二乗適合度検定etc. in silico  2005/07/22 (金) 19:10
こんにちは
早速本題に入ります。
100回の試行で,Aが60回,Bが40回起きました。
AとBが起きる頻度の偏りの有無について,検定で有意差があるのか調べたいとします。
方法としては,表題の2つの方法と,Fisherの直接確率法があると考えました。
いずれも,期待値を50:50に設定することで計算できると思います。
しかし,計算の結果,p値が正規近似とそれ以外で異なるようです。
私は,この場合のような1要因2群の検定では正規近似による母比率の検定(場合によっては二項検定)が使われるものだと考えていますが,カイ二乗適合度検定などはふさわしくないのか,そうであれば何故なのかを知りたいです。
よろしくお願いします。

     [このページのトップへ]


7253. Re: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸  2005/07/22 (金) 21:21
> 方法としては,表題の2つの方法と,Fisherの直接確率法があると考えました。

三番目の方法名は間違いでしょう。二項検定ですね。

> いずれも,期待値を50:50に設定することで計算できると思います。
> しかし,計算の結果,p値が正規近似とそれ以外で異なるようです。

母比率の検定(正規近似)とカイ二乗検定(適合度検定)は一致すると思いますよ。検定統計量で言えば,Z^2 = カイ二乗値 の関係がありますし,それに基づいて計算した P 値は(近似計算の誤差範囲内で)同じになります。

以下,R でやった例を

まずは,二項検定。これは正確な P 値を与えます。

> binom.test(60, 100, p=0.5)

Exact binomial test

data: 60 and 100
number of successes = 60, number of trials = 100, p-value =
0.05689
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4972092 0.6967052
sample estimates:
probability of success
0.6

続いて,正規近似による母比率=0.5の検定
> z <- abs(0.6-0.5)/sqrt(0.5*0.5/100)
> pnorm(z, lower=FALSE)*2
[1] 0.04550026

最後に,生起確率 0.5 : 0.5 の適合度の検定
> chi <- (60-50)^2/50+(40-50)^2/50
> pchisq(chi, 1, lower=FALSE)
[1] 0.04550026

検定統計量の関係式
> z^2
[1] 4
> chi
[1] 4

> 私は,この場合のような1要因2群の検定では正規近似による母比率の検定(場合によっては二項検定)が使われるものだと考えていますが,カイ二乗適合度検定などはふさわしくないのか,そうであれば何故なのかを知りたいです。

どちらを使っても同じですが,コンピュータを使うのが当たり前の時代になりましたので,正確な検定(二項検定)を常に行うべきですね。

     [このページのトップへ]


7256. Re^2: 正規近似による母比率の検定vsカイ二乗適合度検定etc. in silico  2005/07/23 (土) 11:47
青木様

丁寧な解説をいただき,大変助かりました。
二項検定が正確なp値を与える,と理解しました。
二項検定が試行回数に基づく観察度数の累積分布をいちいち計算することで正確なp値を算出するのに対し,正規近似やカイ二乗検定が誤差を含むのは「期待値」のような数値を設定するからなのでしょうかね。

Rをダウンロードしていろいろ試してみました。興味深いですね。有り難うございました。

     [このページのトップへ]


7257. Re^3: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸  2005/07/23 (土) 15:58
> 二項検定が試行回数に基づく観察度数の累積分布をいちいち計算することで正確なp値を算出するのに対し,正規近似やカイ二乗検定が誤差を含むのは「期待値」のような数値を設定するからなのでしょうかね。

二項検定も,実際に累積分布を計算したりはしません。F分布やベータ分布を用います。
http://www.ec.kagawa-u.ac.jp/~hori/delphistat/binom.html

正規近似は,正規分布しない離散分布を正規分布という連続分布で近似するので誤差があるのです。

     [このページのトップへ]


7255. Re^2: 正規近似による母比率の検定vsカイ二乗適合度検定etc. 青木繁伸  2005/07/22 (金) 22:04
追加  prop.test, chisq.test を使う場合

> prop.test(60, 100, correct=FALSE)

1-sample proportions test without continuity correction

data: 60 out of 100, null probability 0.5
X-squared = 4, df = 1, p-value = 0.0455
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5020026 0.6905987
sample estimates:
p
0.6

> chisq.test(c(60, 40), correct=FALSE)

Chi-squared test for given probabilities

data: c(60, 40)
X-squared = 4, df = 1, p-value = 0.0455

な お,correct=TRUE としたとき,chisq.test は correct=FALSE と同じ結果を返す。カテゴリーが2の場合の適合度の検定では,本来は prop.test(..., correct=TRUE) と chisq.test(..., correct=TRUE) も同じ結果になるべきだが。カテゴリーが3以上の場合と区別していないからこうなるのだなぁ。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 034 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る