No.20813 比率の差の検定について  【YS】 2014/01/31(Fri) 14:19

平安時代の日本語において単語Xと単語Yのどちらが使われやすかったかを調べるために,複数の文学作品について各単語の使用回数を数えました(実際の調査対象は十数作品ありますがここでは簡略化しています)。

竹取物語 X5  Y0
土佐日記 X2  Y2
枕草子  X9  Y6
源氏物語 X63 Y26

この時,「作品ごとにばらつきはある(有意差が出ない作品もある)が,総合的に見れば平安時代には形式Xの方が使われやすかった」ことを主張したいのですが,以下の点で悩んでいます。

1. 統計学の教科書などで,「ある集団の反応を調べる際,集団内の各被験者から複数回反応を得てそれらを合計するのは,データの相互独立性が損なわれるため不 適当」といった記述を見かける。そうすると,全体を合計したもの(X79例,Y34例)にカイ2乗検定(適合度の検定)を行うのは望ましくないと思われ る。
2.一方で,作品ごとに1×2の分割表を作ってカイ2乗検定(あるいはフィッシャーの正確確率検定)を行い,「15作品中12作品で有意差が見られた」といった主張をしようとすると,多重検定の問題が生じてしまう。

私 は統計については全くの素人なのですが,このような場合に適切な検定方法はありますでしょうか。例えば,作品ごとにXの使用率を求め(竹取100%,土佐 50%等),使用率の平均が50%より有意に高いかどうかを何らかの検定によって調べるといった手法は可能でしょうか。どなたかご教授いただければ幸いで す。よろしくお願いいたします。

No.20814 Re: 比率の差の検定について  【青木繁伸】 2014/01/31(Fri) 18:32

難しい問題であるという一つの理由は,竹取物語の X が 5 というのが,土佐日記では 2 だから,2.5 倍とはいえないと言うことです。つまり,分母(全体の語数)が違う。例えば 1000 の中の 5 と 3000 の中の 5 は同じではない(比較できない)ということ。
したがって, X の全ての和をとる(79)というのに意味がないということ。

No.20816 Re: 比率の差の検定について  【YS】 2014/01/31(Fri) 22:27

青木先生

早速ご回答いただきまして,ありがとうございます。
そうしますと,今回のように 作品ごとに総語数が異なる場合(この研究分野ではそれが当たり前なのですが),適用できる検定は存在しないということでしょうか。データからは明らかにX の方が使われやすいという傾向が見て取れたため,その点を統計学的に裏付けられないかと思ったのですが,先生が「難しい問題」とおっしゃるからには,諦め た方がよろしいでしょうか。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る