「統計学関連なんでもあり」の過去ログ---006

★ 符号検定における0の扱いは? ★

　320　符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 17:03
　　321　Re: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 17:08
　　　322　Re^2: 符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 17:23
　　　　325　Re^3: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:14
　　　　　327　Re^4: 符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 18:40
　　　　　　328　Re^5: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:51
　　　　　　　329　Re^6: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:56
　　　　324　Re^3: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:09

320.　符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 17:03

はじめて質問します。
符号検定において，0（値が同じであるサンプル）はどう扱えばいいのでしょうか?
無視する例題もあるようですが，大量に0がある場合と，0が少ない場合とを同様に扱うことに疑問を感じます。
よろしくご教示下さい。

　　　　　[このページのトップへ]

321.　Re: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 17:08

> 符号検定において，0（値が同じであるサンプル）は

除きます。情報を与えないのだから。

> 無視する例題もあるようですが，大量に0がある場合と，0が少ない場合とを同様に扱うことに疑問を感じます。

無視しない方法を書いてある教科書（本）ありますか?

大量に0があるデータは，実験精度，実験方法，測定方法に問題があるわけでしょう。
質の悪いデータから，質の悪い結果が出てくるのは，理にかなっています。

　　　　　[このページのトップへ]

322.　Re^2: 符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 17:23

> 大量に0があるデータは，実験精度，実験方法，測定方法に問題があるわけでしょう。
> 質の悪いデータから，質の悪い結果が出てくるのは，理にかなっています。

例えば，2つのクラスへの分類を行うシステムA，Bがあった場合，サンプルの分類が正しければ1，間違っていれば-1，とデータを定義して，両システムの性能を比較するという問題を考えた場合，両システムの出力が等しい場合は，データは0になります。

このような場合に，0を無視していいのかが，疑問なのです。

0が少ない場合は，無視していいように思うのですが，0が大量に得られる場合，残りのわずかなデータがどういう分布で有れ，両システムの性能に差はない，という結果が得られるべきではないのでしょうか?

そもそも，このような場合に符号検定を適用するのが間違っているのでしょうか?

　　　　　[このページのトップへ]

325.　Re^3: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:14

> そもそも，このような場合に符号検定を適用するのが間違っているのでしょうか?

前のコメントで，実験デザインが悪いと書いたのと関係しますが，

「分類が正しいか，誤っているか」の二値データとすると，上のような問題が出てくるのはやむをえないことです。

もし，この判定に段階付けが可能ならば（分類が，「絶対正しい」，「ほぼ正しい」，「同じ」，「ほぼ誤っている」，「絶対誤っている」というようにできるのなら，さらには，この段階付けが連続データになりうるなら），符号検定よりは検出力が高い「符号付順位和検定」が使えるでしょう。さらには「対応のある平均値の差の検定」が使えるでしょう。

　　　　　[このページのトップへ]

327.　Re^4: 符号検定における0の扱いは?　　paatje　　2000/02/07 (月) 18:40

> > そもそも，このような場合に符号検定を適用するのが間違っているのでしょうか?
>
> 前のコメントで，実験デザインが悪いと書いたのと関係しますが，
>
> 「分類が正しいか，誤っているか」の二値データとすると，上のような問題が出てくるのはやむをえないことです。
>
> もし，この判定に段階付けが可能ならば（分類が，「絶対正しい」，「ほぼ正しい」，「同じ」，「ほぼ誤っている」，「絶対誤っている」というようにできるのなら，さらには，この段階付けが連続データになりうるなら），符号検定よりは検出力が高い「符号付順位和検定」が使えるでしょう。さらには「対応のある平均値の差の検定」が使えるでしょう。

ありがとうございます。

ところで，このような問題で，（正解率を対象として）母比率検定を行うのはどうなのでしょうか?

母比率検定だと，総数が効いてくるので，0が多いときも使えるように思うのですが。

各検定方法の導出過程をよく理解していないため，このような質問をしてしまいますが，ご容赦下さい。

　　　　　[このページのトップへ]

328.　Re^5: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:51

> 母比率検定を行うのはどうなのでしょうか?

目的が異なってくるでしょう。母正解率というのがあって，A法による正解率がそれと異なるかどうかで一つの検定。B法による正解率がそれと異なるかどうかでもう一つの検定。この二つの検定によって，どちらの方法が優れているか決着がつくこともあるかもしれない。しかし，これは A と B を直接比較していない。母比率を間に挟んだ，三段論法的な推論ですね。

しかし，元々の目的はA 法と B 法どちらが優れているかですから，どちらの正解率が高いかですから「2つの比率の差の検定」とみればマクネマー検定ということでしょう。

　　　　　[このページのトップへ]

329.　Re^6: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:56

「同じ対象物を2通りの方法で比較して，判定の一致率を見ている」と解釈すると，
κ 統計量（一致率の検定）
http://aoki2.si.gunma-u.ac.jp/lecture/Kappa/kappa.html
を使うこともできるでしょう。この方法ではデータが除外されるということはありません。

　　　　　[このページのトップへ]

324.　Re^3: 符号検定における0の扱いは?　　青木繁伸　　2000/02/07 (月) 18:09

> 0が大量に得られる場合，残りのわずかなデータがどういう分布で有れ，両システムの性能に差はない，という結果が得られるべきではないのでしょうか?

符号検定，マクネマー検定，二項検定の3つは，等価な検定です。

http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/McNemar-test.html
でも説明していますが，マクネマー検定では，このページで使っている記号法でいうと，a, d のカテゴリーに落ちるデータ（符号検定では，同じ結果を持つデータ対）は，検定に無関係です。比率の差（代表値の差）に関係するのは b,c（と n）だけです。

　　　　　[このページのトップへ]