No.04844 2群の標本の一部だけで検定してよいものか  【MY】 2007/11/28(Wed) 17:31

初めまして。言語学専攻の大学院生です。

統計の勉強を始めたばかりで一般的な形で質問することが難しいため,具体的な例を元に質問させていただきます。突然畑違いの話題で申し訳ありません。

「太郎が車*を*欲しい」の代わりに
「太郎が車*が*欲しい」とも言えるとします。

この「車」に相当する名詞に付く「を」と「が」の分布に時代によって差があるかを,現代のテキストと60年前のテキストから「欲しい」の用例を集めて集計しました(実際は「欲しい」ではないのですが「欲しい」を例にします)。

問題は,実際の文章では,
「太郎が欲しい」と「車が/を」が省略されている例や
「車は太郎が欲しい」のように,「が」なのか「を」なのかわからない例が多々あることです。

このような場合に,「が」なのか「を」なのかわからない例を全て除いて,「(車)が」の数と「(車)を」の数を現代と60年前で比較し,検定することは妥当でしょうか。
例えば,

現代:「欲しい」100,「(車)が」20,「(車)を」30,他は判別不能
60年前:「欲しい」120,「(車)が」35,「(車)を」25,他は判別不能

という集計結果だった場合,

    が を
現代  20 30
60年前 35 25

という2×2分割表で検定を行って問題ないのでしょうか。

私は,全標本を活かすべく,例えば「を」に関して「を」とそれ以外全てで標本を分け,

    を 非を
現代  30 70
60年前 25 95

と いう2×2分割表で検定を行い,「を」と「が」それぞれについて時代によって頻度に差があるかを検定した方がよい気がするのですが,これだと「非を」に 「を」が具現化しなかったと想定される例が含まれているのでよくないという人もいます。確かに,「が」と「を」を比べる場合には,そのような問題はありま せんが,大多数の標本を捨てて検定してしまっていいものかと思っています。

No.04846 Re: 2群の標本の一部だけで検定してよいものか  【青木繁伸】 2007/11/28(Wed) 17:57

> 2×2分割表で検定を行って問題ないのでしょうか

この問題は,統計学が答えられる問題ではないでしょう。

いろいろな考え方があるでしょうが,どれをあなたが望ましいと考えるかに掛かっています。

判別不能と言うカテゴリーを,どちらかに含めるということだって,省くことだって不適切だということもあるでしょう。

そうすると,2×3分割表になるわけです。

現代  20 30 50
60年前 35 25 60

No.04848 Re: 2群の標本の一部だけで検定してよいものか  【MY】 2007/11/28(Wed) 19:41

早速お返事ありがとうございます。

標本の一部(実際には大部分)を捨てた上でカイ2乗分布などに基づいた検定を行う点が気になっていましたが,先程書いた2つの方法も,2×3分割表にするやり方も,統計学的には問題なく,どれを採用するかは言語学的の問題だと理解いたしました。

もし違いましたら訂正お願いいたします。

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る