No.10160 素人の質問ですみません  【Aky】 2009/06/21(Sun) 18:06

統計は初歩の理解も怪しいのですが,諸事情で使わざるを得ない状況で
すので,質問させて頂きます。言語資料を扱っています。

長さの異なる(=総語数の異なる)複数のテキストと,それらのテキストに
生起するある特定の文法項目(例えば助動詞will)の出現の仕方に差があるのか

ということを調べたいと思っております。次の例は思いつきですが,イメージは
次のようなものです:

Willの出現数 textの総語数
Text A 123       122333
Text B 56 89788
Text C 259 299009

カイ自乗が使えないということはわかるのですが(誤解ならばすみません),
ではどのような検定を使えばよいのかということがわかりません。

本当に初歩的な質問で申し訳ございませんが,宜しくお願いいたします。

No.10161 Re: 素人の質問ですみません  【TU】 2009/06/21(Sun) 18:30

本当に(推測)統計を使用する必要があるのかどうかをまず考えてみた方がいいかもしれません。あなたが知りたいの は,テキストA,B,C間において,特定の文法項目の出現比率に差があるか否かですか?それならば,一目瞭然で差があります。あなたはテキストA,B,C それぞれ網羅的に調べており,そこから得られた総数を見ても,出現率を見ても,明らかに差がありますよね。引き算をしたらゼロにならないから。

おぉ,と納得されたなら,ここであなたの問題は解決です。総数,あるいは出現比率,といった記述統計を計算することですべて解決です。つまりもう解決しています。

実 は違うのでは?あなたの知りたいことは,テキストA,B,Cに限らず,もっと何かに一般化してモノを言いたい(何々と何々の間に差があると言いたい)ので は?思いつきとやらで書かれた例のせいで,おそらくあなたが知りたいことは伝わっていません。少なくともその思いつきの例に対して差があると言うために は,上記のものでOKです。でも,おそらく本当はもっと違うことが知りたいですよね?

母集団,サンプル,推測統計,記述統計,全数調査,などなどといったキーワードで検索してちょっと色々見て必要な情報が何かを考えてみてから改めて書き込むと,いいお返事が返ってくるかもしれません。もしかしたら,あなたお一人の手が解決できるかもしれません。

No.10165 Re: 素人の質問ですみません  【Aky】 2009/06/21(Sun) 22:04

ありがとうございました

No.10166 Re: 素人の質問ですみません  【青木繁伸】 2009/06/21(Sun) 22:20

ご両者の議論の中心核は,標本調査とは何かということかもしれませんね。
質問者は,このデータは標本だと思い(?)
回答者は,悉皆調査だと思う。
悉皆調査なら,検定なんかないだろうということ。
まあ,標本調査だと思って(まあ,A,B.Cが作家で,データはたまたまそれぞれの1つの著作物を集計した標本データ)分析すると。
Rなら,以下のようになるわけで
> d
x n p
Text.A 123 122333 0.0010054523
Text.B 56 89788 0.0006236914
Text.C 259 299009 0.0008661947

> prop.test(d$x, d$n)

3-sample test for equality of proportions without continuity
correction

data: d$x out of d$n
X-squared = 8.8867, df = 2, p-value = 0.01176
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3
0.0010054523 0.0006236914 0.0008661947
と いうことで,検定すれば,有意な差が見られるという結果になりますけど,そもそも悉皆調査のデータに検定を行うことはできるのかということでしょう。作家 単位に見れば,標本調査ではあります。しかし,標本の代表性という観点からは,「本当に標本か?」という疑念は残りますね。
まあ,難しいところしょうね。あなたの分野における,先行研究がどのようなアプローチをしているかを,よく調べる必要があるでしょう。

No.10167 Re: 素人の質問ですみません  【ひの】 2009/06/21(Sun) 22:27


 こういうことを扱う計量言語学という学問分野があります。その方面の文献をお調べになることをお勧めします。

No.10168 Re: 素人の質問ですみません  【TU】 2009/06/22(Mon) 00:12

青木先生

フォローありがとうございます。僕が考えていたことと同じです。カイ二乗検定というフ レーズから,きっと質問者の方は標本調査だと思っておられると判断しました。でも,本当に標本なのかな,悉皆調査の可能性はないのかな,と思ったのが僕の コメントの背景です。本当に標本なのかどうかということを,キーワードから検討していただければと思っておりました。僕の書き方が不十分でしたね。

ひの先生

僕も読んでみます。

No.10172 Re: 素人の質問ですみません  【Aky】 2009/06/22(Mon) 16:43

TU様,青木先生,ひの様

ご回答ありがとうございました。

よくわかりました。
また,分野のこともお教え頂き,ありがとうございました。
調べてみたいと思います。また,統計の勉強もちゃんと
していきたいと思います。

どうもありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る