「統計学関連なんでもあり」の過去ログ---030

★ 期待度数が5以下でも良いか？ ★

4197.　期待度数が5以下でも良いか？　やま　2004/09/07 (火) 20:23
├4208.　Re: 期待度数が5以下でも良いか？　ひの　2004/09/07 (火) 22:22
│├4211.　Re^2: 期待度数が5以下でも良いか？　青木繁伸　2004/09/07 (火) 22:32
│└4210.　Re^2: 期待度数が5以下でも良いか？　やま　2004/09/07 (火) 22:31
├4202.　Re: 期待度数が5以下でも良いか？　青木繁伸　2004/09/07 (火) 20:57
├4201.　Re: 期待度数が5以下でも良いか？　若輩者　2004/09/07 (火) 20:54
│└4206.　Re^2: 期待度数が5以下でも良いか？　やま　2004/09/07 (火) 22:00
└4200.　Re: 期待度数が5以下でも良いか？　青木繁伸　2004/09/07 (火) 20:54
　└4204.　Re^2: 期待度数が5以下でも良いか？　やま　2004/09/07 (火) 21:39
　　└4207.　Re^3: 期待度数が5以下でも良いか？　青木繁伸　2004/09/07 (火) 22:02
　　　├4212.　Re^4: 期待度数が5以下でも良いか？　青木繁伸　2004/09/08 (水) 11:25
　　　│└4224.　Re^5: 期待度数が5以下でも良いか？　やま　2004/09/09 (木) 18:43
　　　└4209.　Re^4: 期待度数が5以下でも良いか？　やま　2004/09/07 (火) 22:28

4197.　期待度数が5以下でも良いか？　やま　　2004/09/07 (火) 20:23

お忙しいところ申し訳ありませんが，宜しくお願い致します。

尤度比検定を勉強しているとき，ある方から，尤度比検定は，各セルの期待度数の比をポアソン分布から正規分布へ近似することによってカイ二乗検定統計量を導く，独立性の検定論と同定であり，この適用には各セルの出現度数が少なくとも5以上程度が必要であるということをお聞きしました。しかし，東京大学教養学部統計学教室編（1999[1992初版]）：『自然科学の統計学』，東京大学出版会　pp.142．においても，「ゼロ」を含んだデータを用いた例題もあり，私は，尤度比検定は，カイ二乗検定で期待度数が5以下になってしまった場合に活用するものと認識しております。

「ゼロ」を含んだデータ（分割表）の場合，尤度比検定を活用するのは間違っているのでしょうか？ご教授の程，宜しくお願い致します。

　　　　　[このページのトップへ]

4208.　Re: 期待度数が5以下でも良いか？　ひの　　2004/09/07 (火) 22:22

> 「ゼロ」を含んだデータ（分割表）の場合，尤度比検定を活用するのは間違っているのでしょうか？ご教授の程，宜しくお願い致します。

やってみればすぐ分かることですが，最初に対数をとるところでコケますね(^^)。0のセルは0.5として計算するという姑息な対処法はありますが，いかにも無理矢理ですよねぇ。

　　　　　[このページのトップへ]

4211.　Re^2: 期待度数が5以下でも良いか？　青木繁伸　　2004/09/07 (火) 22:32

> やってみればすぐ分かることですが，最初に対数をとるところでコケますね(^^)。0のセルは0.5として計算するという姑息な対処法はありますが，いかにも無理矢理ですよねぇ。

度数を n などとすると，n*log(n) の計算が必要なわけですから log(n) の計算には失敗しますが，n ＝0 をかけるのだから，結局，そのような項は計算に無関係と言うことになります。

　　　　　[このページのトップへ]

4210.　Re^2: 期待度数が5以下でも良いか？　やま　　2004/09/07 (火) 22:31

> やってみればすぐ分かることですが，最初に対数をとるところでコケますね(^^)。0のセルは0.5として計算するという姑息な対処法はありますが，いかにも無理矢理ですよねぇ。

ご指導有り難うございます。
青木先生，若輩者さまからもご指導をいただき，適さないことがわかりました。これからは，フィッシャーの正確確率検定を活用したいと思います。有り難うございました。

　　　　　[このページのトップへ]

4202.　Re: 期待度数が5以下でも良いか？　青木繁伸　　2004/09/07 (火) 20:57

なお，カイ二乗検定を行う際の，「期待度数が5以下かどうか」という基準は，かなりきつめの条件であるというのは，相当昔の古くさい論文に述べられています。
http://aoki2.si.gunma-u.ac.jp/lecture/Cross/warning.html
を参照いただくとよろしいでしょう。

繰り返しますが，exact test を行えば問題は生じません。

　　　　　[このページのトップへ]

4201.　Re: 期待度数が5以下でも良いか？　若輩者　　2004/09/07 (火) 20:54

＞東京大学教養学部統計学教室編（1999[1992初版]）：『自然科学の統計学』，東京大学出版会　pp.142．においても，「ゼロ」を含んだデータを用いた例題もあり，

その「ゼロ」は，期待値ですか，観測値ですか？

＞私は，尤度比検定は，カイ二乗検定で期待度数が5以下になってしまった場合に活用するものと認識しております。

尤度比検定も，結局検定量がカイ二乗分布に近似されることを利用するのだから，期待値が5以下なら，カイ二乗分布への近似が悪いということで，適さないのではないでしょうか．

> 「ゼロ」を含んだデータ（分割表）の場合，

フィッシャーの直接確率法でしたっけ，exact test でしたっけ，じゃないですか？

　　　　　[このページのトップへ]

4206.　Re^2: 期待度数が5以下でも良いか？　やま　　2004/09/07 (火) 22:00

ご返答いただきまして，有り難うございます。

> その「ゼロ」は，期待値ですか，観測値ですか？
青木先生から若輩者さまと同時刻にご返答をいただき，そこにも御指摘をいただきましたが，その事例は，尤度比検定とかカイ二乗検定を行える分割表ではありませんでした。失礼致しました。

> 尤度比検定も，結局検定量がカイ二乗分布に近似されることを利用するのだから，期待値が5以下なら，カイ二乗分布への近似が悪いということで，適さないのではないでしょうか．
尤度比検定は，かなりゆるい検定であるとの記憶があるのですが，やはり，期待値が5以下なら適さないということなのでしょうか。
これからは，御指摘をいただきましたようにフィッシャーの正確確率検定を活用したと思います。

> フィッシャーの直接確率法でしたっけ，exact testでしたっけ，じゃないですか？
青木先生からも同様の御指摘をいただきました。フィッシャーの正確確率法を活用したいと思います。ご指導有り難うございました。

　　　　　[このページのトップへ]

4200.　Re: 期待度数が5以下でも良いか？　青木繁伸　　2004/09/07 (火) 20:54

あの例の場合は良くお読みいただけるとわかると思いますが，0のセルを多く含むかどうか以前のレベルで，つまり尤度比検定とかカイ二乗検定を行える分割表ではないということでした。

尤度比検定とかカイ二乗検定とか，何らかの近似に基づく方法は，計算のコストが高かった一昔前の検定手法ですから，可能な限り正確な検定 exact test を行うべきでrしょう。

適切な検定手法が選択されるというのは，当然満たされるべき条件ですから注意が必要です。

　　　　　[このページのトップへ]

4204.　Re^2: 期待度数が5以下でも良いか？　やま　　2004/09/07 (火) 21:39

お忙しいところご返答いただきまして有り難うございます。

> あの例の場合は良くお読みいただけるとわかると思いますが，0のセルを多く含むかどうか以前のレベルで，つまり尤度比検定とかカイ二乗検定を行える分割表ではないということでした。

仰るとおりでした。御指摘有り難うございます。

> 尤度比検定とかカイ二乗検定とか，何らかの近似に基づく方法は，計算のコストが高かった一昔前の検定手法ですから，可能な限り正確な検定 exact test を行うべきでしょう。

ご教授，有り難うございます。
フィッシャーのexact testを活用してみたいと思います。

ちなみに，先生と同時刻にご返答いただいた若輩者さまも仰っていますように，期待度数が5以下の場合は，尤度比検定は適さないという認識で宜しいでしょうか？

　　　　　[このページのトップへ]

4207.　Re^3: 期待度数が5以下でも良いか？　青木繁伸　　2004/09/07 (火) 22:02

示したリンクにも書きましたが，期待値5については
　　期待値が 5 未満の桝目が全体の桝目の数の 20 % 以上ある。
場合には，カイ二乗検定は不適切だろうということ。
　　（念のため補足：期待値が1未満の桝目は一つたりとあってはならない）

私のサイトのページには書いていないが，尤度比に基づく検定（G2検定）については，「G2検定はカイ二乗検定と殆ど同じ検定結果を与える。もし一致しない場合にはG2検定の結果を採用するのがよい」（なら，いつも G2 検定を行えばいいわけだ），というお墨付きがどっかにありました。

また，話が拡散しますが，AICに基づく独立性の検定の方が優れているのだという話もあります。
坂本慶行，石黒真木夫，北川源四郎「情報量統計学」共立出版株式会社
http://aoki2.si.gunma-u.ac.jp/R/AIC-independence.html

　　　　　[このページのトップへ]

4212.　Re^4: 期待度数が5以下でも良いか？　青木繁伸　　2004/09/08 (水) 11:25

補足
Agresti の Categorical Data Analysis(P.49) によれば，

1) 行数と列数の同じ分割表においては，サンプルサイズが大きくしていくと X2 は G2 より速くカイ二乗分布での近似ができるようになる。

2) サンプルサイズ n，行数 I，列数 J のとき，n/(IJ) < 5 なら，G2 はカイ二乗分布での近似は poor である。

3) I または J が大きいとき，期待値が極端に小さかったりある程度大きかったりするセルを同時に含まない限り，X2 は n/(IJ) < 1 であっても，そうひどくはない。

過去ログ
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc002/077.html
の，長いスレッドでは，Fisher's exact test については批判的意見も述べられている（Sokal らの Biometry）。

　　　　　[このページのトップへ]

4224.　Re^5: 期待度数が5以下でも良いか？　やま　　2004/09/09 (木) 18:43

> 1) 行数と列数の同じ分割表においては，サンプルサイズが大きくしていくと X2 は G2 より速くカイ二乗分布での近似ができるようになる。
> 2) サンプルサイズ n，行数 I，列数 J のとき，n/(IJ) < 5 なら，G2 はカイ二乗分布での近似は poor である。
> 3) I または J が大きいとき，期待値が極端に小さかったりある程度大きかったりするセルを同時に含まない限り，X2 は n/(IJ) < 1 であっても，そうひどくはない。

返事が遅くなってしまい申し訳ありません。
大変参考になる情報でした。補足していただき有り難うございました。

　　　　　[このページのトップへ]

4209.　Re^4: 期待度数が5以下でも良いか？　やま　　2004/09/07 (火) 22:28

> 期待値5については期待値が 5 未満の桝目が全体の桝目の数の 20 % 以上ある場合には，カイ二乗検定は不適切だろうということ。
> 私のサイトのページには書いていないが，尤度比に基づく検定（G2検定）については，「G2検定はカイ二乗検定と殆ど同じ検定結果を与える。もし一致しない場合にはG2検定の結果を採用するのがよい」（なら，いつも G2 検定を行えばいいわけだ），というお墨付きがどっかにありました。

ご指導いただき，有り難うございました。
上記の件，よく覚えておきます。

> また，話が拡散しますが，AICに基づく独立性の検定の方が優れているのだという話もあります。

様々な情報を有り難うございます。
AICとはAkaike Information Criterionのことでしょうか？一度調べてみたいと思います。

　　　　　[このページのトップへ]