No.05230 正答率の検定  【みどり】 2008/01/01(Tue) 21:08

新年あけましておめでとうございます。

あるテストにおいて,二つの問いの形式,A形式とB形式があります。知りたいのは両形式の正答率に有意差があるかどうかです。有意差がなければ,二つの形式で問う必要がなくなると考えています。

手 に入ったデータは12回分のテストにおける各問題の正答率です。個々の受験者の成績データはありません。各テストにおいてA形式問題は10問,B形式問題 は5問ずつ出題されました。よって,A形式の問いの正答率のデータが計120と,B形式の正答率のデータが計60あります。受験者と出題問題は12回のテ スト毎に異なります。出題問題の等化は行われていません。この場合,以下のどの方法を採るべきでしょうか。

(1)A形式120のデータとB形式60のデータについてt検定をおこなう。
(2)各回のテストにおけるA形式の正答率の平均とB形式の正答率の平均を求め,12ずつのデータについて対応のある標本としてt検定を行う。
(3) 各回のテストにおけるA形式の正答率の平均とB形式の正答率の平均を求め,12ずつのデータについてMann-Whitneyの検定を行う。

(1) がサンプルサイズが大きくパラメトリックであることから検定力が高いですが,果たして,受験者も問題も12回のテストで異なっているのに,パラメトリック な検定でいいかどうかが迷うところです。この点は(2)にしても同じでしょう。一方,(3)のノンパラなら,受験者と問題が異なることはよしとされるので しょうか。ご教示よろしくお願いします。

No.05231 Re: 正答率の検定  【青木繁伸】 2008/01/01(Tue) 22:42

1〜3いずれの方法も採れないと思います

A形式B形式の問題が同じものでないこと,元のデータがないことなど,確かなことがいえるデータではないと思います。

私 が実験するなら,同じ質問(1問だけでなくて5問でも10問でもよいですが)を,ある対象にはA形式で質問し,その対象と性・年齢・教育水準などが同じ (マッチングされた)対象にB形式で質問し,二群の正答率の比較をすることになると思います。(マッチングが厳密に行われれば対応のある比率の差の検定に なるし,それほど厳密なマッチングでない場合には単純な二群の比率の差の検定になるでしょう)

(マッチングは,対象とする問題に関する要因に関して行う訳で,たとえば性別に回答率が異なる訳はないということなら,性についてマッチングする必要はない,などということになります)

No.05236 Re: 正答率の検定  【みどり】 2008/01/02(Wed) 19:11

元日にもかかわらず,早速ご回答いただき驚きました。深く感謝いたします。

ご教示いただいた通り,被験者をペアマッチングして実験すべきことはよく分かりました。でも,手元にあるデータでどうにかして分析できないか悩んでいます。もう少し伺ってもよろしいでしょうか。

手 元にあるデータは12回それぞれの受験者数が1万人以上と多数です。12回のテストでANOVAをしたところ,A形式,B形式とも12回のテスト間に有意 差が認められませんでした。このことから,各テストにおける受験者および問題はともに異なってはいますが,各テストの受験者(集団)の能力および問題のむ ずかしさに違いはなかったと仮定して分析を進めるのは許されませんでしょうか。(性別・年齢等については回答への影響はないものとみなしています。)も し,分析できる可能性があるとすれば,どのような方法がありますでしょうか?

No.05237 Re: 正答率の検定  【青木繁伸】 2008/01/02(Wed) 19:50

> 12回のテストでANOVAをしたところ,A形式,B形式とも12回のテスト間に有意差が認められませんでした。このことから,各テストにおける受験者お よび問題はともに異なってはいますが,各テストの受験者(集団)の能力および問題のむずかしさに違いはなかったと仮定して分析を進めるのは許されませんで しょうか。

「各テストの受験者(集団)の能力および問題のむずかしさに違いはなかったと仮定して分析を進める」のは間違いではないでしょう。

しかし,それは,「何を,どんな方法で,どんな集団に実施しても正解率は同じ」ということが分かったに過ぎません。(それで分かったことが意味があることかどうかもわかりませんが)。

繰 り返しになりますが,同じ問題をA形式とB形式でやらなければ,A形式とB形式の正解率に差があるかどうかはいえないでしょう。(「A形式とB形式の正解 率に差があるか」というのは「何を,どんな方法で,どんな集団に実施しても正解率は同じ」というのとは違いますよね。たぶん,「何を,どんな方法で,どん な集団に実施しても正解率は同じ」ならば,「ある問題を,A,B二方式でやっても,成果率は同じくらいになる」んでしょう。しかし,やってもいないことに ついての結論は想像することしかできない。)

それにしても,「それぞれの受験者数が1万人以上」ですか。一体全体どういうデータなんでしょう。検定する意味がない(ちょっとの差でも有意な結果になりそう)のではないでしょうか。

No.05241 Re: 正答率の検定  【みどり】 2008/01/03(Thu) 15:35

丁寧で分かりやすい説明をありがとうございます。まとめの確認をさせてください。また,私の記述に明確でなかった部分があったようです。これについては少し説明を加えさせてください。

(Q1)仮説は変えなくてはいけませんね。単純に「A問題群とB問題群の正答率に差がない」かどうかにします。差があるとなった場合,その要因は分かりませんが,難しさに偏りがあったということだけは言えることになると思いますが,いかがでしょうか。

(Q2)受験者数は1万を越えますが,与えられているのはその1万人による正答率のデータなので,正答率のケース数はA群120とB群60しかありません。ですから,検定を行う意味はあると思いますが,いかがでしょうか。

(Q3)ANOVA はA群とB群を別々に行ったものです。まず,A群で12回のテストで有意差なしとなり,B群でも12回のテストで有意差なしとなったものです。ですから, ここでは何を(「A群内の12回の間で問題が異なっていても」および「B群内の12回の間で問題が異なっていても」),どんな集団に実施しても(A群内の 12回の間で受験者が異なっていても」および「B群内の12回の間で受験者が異なっていても」)A 群の12回の間で正答率は差がなく,B群の12回の間で正答率に差がない,といえることが分かりますが,「どんな方法でも(A群とB群の間に)差がない」 ことにはならないと思いますが,いかがでしょうか。

(Q4)最後に,12回のテストの受験者の能力とそれぞれの回の問題の難しさに差はなかったと仮定して,12回分のテストデータを集めた上で,A群とB群の平均差のt検定ができると考えますが,いかがでしょうか。

No.05243 Re: 正答率の検定  【青木繁伸】 2008/01/03(Thu) 17:28

> (Q2)受験者数は1万を越えますが,与えられているのはその1万人による正答率のデータなので,正答率のケース数はA群120とB群60しかありません。ですから,検定を行う意味はあると思いますが,いかがでしょうか。

簡単な例を挙げましょう。
ケース1:A形式受験者1万人,正解者5千人(正解率50%),B形式受験者1万人,正解者4千人(正解率40%)
ケース2:A形式受験者100人,正解者50人(正解率50%),B形式受験者100人,正解者40人(正解率40%)

同じ50%と40%でも,意味が違いますね。

もう一つ。
A形式5回
 受験者  10000 11000 12500 12300 11400
 正解者  5157 5690 6430 6266 5756
 正解率  51.6 51.7 51.4 50.9 50.5
B形式5回
 受験者  12000 10500 11500 10300 11800
 正解者  6176 5521 5897 5270 6221
 正解率  51.5 52.6 51.3 51.2 52.7
この比較を,正解率5個ずつの%を数値としてt検定する。
Welchの方法で
 P値 = 0.1787958       帰無仮説採択

このデータを,5回の受験者は重複がないとしてプールする
A形式受験者 57200,正解者 29299,正解率 51.2
B形式受験者 56100,正解者 29085,正解率 51.8
この比較を二群の比率の差の検定を行う
 P値 = 0.03647        帰無仮説棄却
さて,どちらを採用しましょうか

逆に,こういう場合もあります。
A形式5回
 受験者  100 110 125 123 114
 正解者  52 56 63 63 57
 正解率  52.0 50.9 50.4 51.2 50.0
B形式5回
 受験者  120 105 115 103 118
 正解者  62 55 60 53 61
 正解率  51.7 52.4 52.2 51.5 51.7
Welchの方法 P 値 = 0.04632351 帰無仮説棄却
二群の比率の差の検定 P 値 = 0.7822123 帰無仮説採択
さて,こんどはどっちを採用しましょうか

「データの単位」を考える必要があります。
100万人の比率を1つのデータと数えるか,100万個のデータから算出された統計量と考えるかの違いでしょう。
前者の考え方よりは後者の方が妥当性があるでしょう。

No.05260 Re: 正答率の検定  【みどり】 2008/01/04(Fri) 16:34

懇切丁寧なご教示ありがとうございました。
二群の比率の差の例は,実感としてよく理解できました。ご指摘の通り,情報量を落として検定を行うのは妥当性がありませんね。

今回勉強させていただいたことをもとに私なりにまとめてみました。こういう理解でよろしいでしょうか。
今 回のデータでは検定の出番はありません。テストの各回でA形式とB形式の正答率の平均を比較し,それを12回繰り返して傾向を見るということはできるで しょう。その際,受験者数が多いので,有意差の検定の必要もありません。また,たとえ傾向があったとしても,そこには「形式」以外の原因がある可能性を含 めて解釈しなくてはなりません。

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る