★ 母比率の検定でのp値の相違 ★

1226. 母比率の検定でのp値の相違 統計初心者A 2003/12/04 (木) 20:19
└1227. Re: 母比率の検定でのp値の相違 青木繁伸 2003/12/04 (木) 21:41
 └1228. Re^2: 母比率の検定でのp値の相違 統計初心者A 2003/12/04 (木) 23:19
  └1243. Re^3: 母比率の検定でのp値の相違 ときた 2003/12/06 (土) 06:48
   ├1245. Re^4: 母比率の検定でのp値の相違 青木繁伸 2003/12/06 (土) 09:36
   │└1246. Re^5: 母比率の検定でのp値の相違 ときた 2003/12/06 (土) 11:01
   └1244. Re^4: 母比率の検定でのp値の相違 ときた 2003/12/06 (土) 06:53


1226. 母比率の検定でのp値の相違 統計初心者A  2003/12/04 (木) 20:19
初めまして,群馬大学医学部でパソコンを使った統計の授業を受けております統計初心者Aと申します。

今回,母比率の検定に関する問題を解いておりまして,教科書の
(1)標本サイズn=50,陽性数r=12,母比率パイ=20%
(2)標本サイズn=40,陽性数r=6,母比率パイ=10%
の問題をエクセルで解こうとしておりました。

(1)はZ0=0.707107となり,NORMSDIST関数でp=0.76025
(2)はF0=1.54286(nu1=70,nu2=12)となり,FDIST関数でp=0.20627
と出ました。

ところが,青木先生の
http://aoki2.si.gunma-u.ac.jp/calculator/p_test.html
で計算しましたところ,(1),(2)ともにZ0,F0は同じなのですが,
(1)のp値がp=0.4795
(2)のp値がp=0.4152545
となり,エクセルと異なってしまいます。

(2)に関してはエクセルの値のおよそ倍になっていることから,片側両側の違いかとも思ったのですが,どうも腑に落ちません。
よろしければ,このような違いが出てしまう原因と,いったいどちらを正しい値として見ればよいのかをご教授いただけますでしょうか。

     [このページのトップへ]


1227. Re: 母比率の検定でのp値の相違 青木繁伸  2003/12/04 (木) 21:41
> (1)はZ0=0.707107となり,NORMSDIST関数でp=0.76025

Excel の NORMSDIST 関数の仕様を調べましょう。

望む答えは =(1-normsdist(0.707107))*2
としないと,出てこないのではないでしょうか。
*2 は両側P値を求めるためのものです。

統計関数は,ソフトウェアごとに違った仕様に従っていることがあるので注意が必要です。よくわかっている値を引数に指定してみるといいでしょう。=normsdist(1.96) はいくつになると思いますか,そして,いくつになりましたか。

> (2)はF0=1.54286(nu1=70,nu2=12)となり,FDIST関数でp=0.20627
> と出ました。

> http://aoki2.si.gunma-u.ac.jp/calculator/p_test.html
では
> (2)のp値がp=0.4152545

私のページで計算したのなら,0.412545 のはずですが?

Excel では,
=FDIST(1.54286,70,12)*2
としなければならないでしょう。
*2 は両側確率を求めるためです。

> (2)に関してはエクセルの値のおよそ倍になっていることから,片側両側の違いかとも思ったのですが,どうも腑に落ちません。
> よろしければ,このような違いが出てしまう原因と,いったいどちらを正しい値として見ればよいのかをご教授いただけますでしょうか。

検定手順のマニュアルを見直せばいいでしょう。

     [このページのトップへ]


1228. Re^2: 母比率の検定でのp値の相違 統計初心者A  2003/12/04 (木) 23:19
ご回答いただきましてありがとうございます。
>=normsdist(1.96) はいくつになると思いますか,そして,いくつになりましたか。

0.05になると思っていました(^^;
0.975002になって,ようやく物事が理解できました・・・
曖昧に(適当に)覚えていたのがまずかったようです。
1.96で試すことさえしていなかったのには反省しきりです。

> 私のページで計算したのなら,0.412545 のはずですが?

すみません,目視で写すときに間違えたようです。

> Excel では,
> =FDIST(1.54286,70,12)*2
> としなければならないでしょう。
> *2 は両側確率を求めるためです。

先ほど青木先生のページで見て参りましたら,FDISTは上側のみなのですね。これで原因がわかりました。

ご指摘を受けて自分の至らなさを痛感した次第です。
ありがとうございました。

     [このページのトップへ]


1243. Re^3: 母比率の検定でのp値の相違 ときた  2003/12/06 (土) 06:48
竹沢師の下のほうでお遊び。
http://aoki2.si.gunma-u.ac.jp/JavaScript/tests.html
に50,12,0.2を入れたとき出てくる。78,24,0.57866
ですが,
PDF[FRatioDistribution[78, 24], x]
は分母が(24+78x)^51 分子は C x^38で,Cは
3293237788435272377459040766108755908085168949148579566504906042026623091746909269450795595401160294400
でこれをF0から無限大まで積分したのがP値の半分です。

(a + b)^50 // Expand
Take[%, -39]
% /. {a -> 0.8, b -> 0.2}
で積分と同じ値になります。

     [このページのトップへ]


1245. Re^4: 母比率の検定でのp値の相違 青木繁伸  2003/12/06 (土) 09:36
Mathematica による,例示ですね。よくわからないところも多い(ほとんどわからないかも)のですが,ちょうどよかったので,R での検定結果について,書いておこうと思います。

母比率(母割合)の検定は,Z 統計量による漸近近似と,その正確な検定である二項検定があります。二項検定による方法は,F 分布(ベータ分布)を用いて全く同じ計算結果が得られます。

R には,binom.test 関数というのがあり,r = 12, n = 50, π = 0.2 の,「片側検定」の結果は,
> binom.test(12, 50, 0.2, alt="greater")

    Exact binomial test

data:  12 and 50 
number of successes = 12, number of trials = 50, p-value = 0.2893 ここの p-value に注目
alternative hypothesis: true probability of success is greater than 0.2 
95 percent confidence interval:
 0.1447182 1.0000000 
sample estimates:
probability of success 
                  0.24 
となり,両側検定の P 値は,
> binom.test(12, 50, 0.2, alt="greater")$p.value*2
[1] 0.5786648
として得られます。

なぜ,片側検定をして,P 値を二倍したかというと,binom.test で「両側検定」をすると,次のような結果になるからです。
> binom.test(12, 50, 0.2, alt="two")

    Exact binomial test

data:  12 and 50 
number of successes = 12, number of trials = 50, p-value = 0.4797
alternative hypothesis: true probability of success is not equal to 0.2 
95 percent confidence interval:
 0.1306099 0.3816907 
sample estimates:
probability of success 
                  0.24 
実は,π ≠ 0.5 のときには,分布が歪んでいるので,先ほどの片側検定のもう一方の棄却域の P 値を求め,両者を合計しているのですね。

どんな風にやっているかは,binom.test と入力すれば関数定義が示されます。

検定統計量の分布が歪んでいる場合の両側検定で,注目している側の P 値を二倍するか,もう一方の側の P 値も求めて合計するか,どちらの方法をとるかについて,論争もあります。

     [このページのトップへ]


1246. Re^5: 母比率の検定でのp値の相違 ときた  2003/12/06 (土) 11:01
もう少し簡単な例で,
<<Statistics`DiscreteDistributions`

RandomArray[BernoulliDistribution[0.2],50]

{0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,1,0,0,0,0,0}

Count[RandomArray[BernoulliDistribution[0.2],50],1]

10

Table[Count[RandomArray[BernoulliDistribution[0.2],50],1],{n,10000}];

Select[%,#≧12&]//Length

2867
50人学級での 健康診断を全国1万学級でおこなったら,陽性12名以上が2867学級は,さきの積分0.289332395と大数の法則してます.

今気にしてる伝聞に,『S 市で同じ中学卒の3人が,ここ数年で,20才前に白血病でなくなった』があります。小数のこういうのは,むずかしいのだろうけど。

     [このページのトップへ]


1244. Re^4: 母比率の検定でのp値の相違 ときた  2003/12/06 (土) 06:53
さらに AICで遊ぶと,
(-2) (12 Log[12/50] + (50 - 12)*Log[1 - 12/50]) + 2
(-2) (12 Log[0.2] + 38*Log[0.8])
は,57.108 と55.5854
で+2が効いている。
13のときは,59.3057と58.358
ですが,14では61.2953と61.1306とびみょ〜に。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 026 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る