No.06290 単語の出現頻度の評価について  【安田】 2008/04/06(Sun) 18:29

たいへん有益なサイトの運営にいたく感謝します.

私は統計学を自習する社会人です.個人的趣味で文学への統計学の適用を勉強しております.ある特徴をもった単語の出現頻度の統計的評価について質問があります.

あ る文学テキストにおける「特徴語」(仮にこうしておきます)の頻度を計算したところ,テキスト全体で 136語/10000語という頻度が得られました.この「特徴語」が特定のテキスト範囲(場面,プロット)において集中して用いられていることを統計学的 に判断したいと考えています.
文学テキストにおける単語の出現分布はポアソン分布と考えます.
そこで,かりにある範囲のテキストにおいて「特徴語」の頻度が偶然でなく高いと判断するには,どのような考え方,計算をすればよいか,ご教示いただけないでしょうか?

正規分布の場合,「平均 plusminus 2s」内,「平均 plusminus 3s」内にはまらない個体は相応する確率で特別なものと判断できると理解しております.
こ の「特徴語」がテキスト範囲において通常の出現頻度から著しく特別な出現頻度を示していると結論するにはたとえば「平均 plusminus 3s」つまりこのテキストの場合,100語/10000語〜172語/10000語の範囲外にあるということが導き出せればよいのでしょうか?

初学者ですので誤った観点にしばられているかもしれません.ヒントなりでもいただければ幸いに存じます.よろしくお願いいたします.

No.06303 Re: 単語の出現頻度の評価について  【birei】 2008/04/08(Tue) 10:17

>ポアソン分布と考えます
分布関数の適用は恣意性が無い事が前提条件です。文脈とは恣意性その物を言うはずです。
文学はそれだからこそ,文学であってランダムでは文学にはならないと思います。
単語をテキトウにばら撒いた物は意味不明な物になりますが,統計的な処理は可能です(処理して意味があるかは別ですが)。
統計はインクの拡散・熱の伝導の様に自然拡散している部分を解析し区分けする手法です。
これはノンパラでも同様に同一分布の独立ランダムサンプル(i.i.d)となります。
それと別に迷惑メールの振分けみたいに,来るメールがランダムな相手のランダムな内容となれば,統計処理は可能ですが…非常に特徴的な単語での振分けに限られます。そんな場合,振分けには事前学習データが必要です。

No.06310 Re: 単語の出現頻度の評価について  【安田】 2008/04/08(Tue) 22:39

birei 様,ご回答ありがとうございます.

> 分布関数の適用は恣意性が無い事が前提条件です。文脈とは恣意性その物を言うはずです。
そのとおりだと思います.大切な前提を指摘いただきありがとうございます.

文 学は意思のかたまりなので,統計的判断はたしかにたいへん危険だと思います.しかしながら一方で,仮にことばがランダムに使用されていると仮定した場合, 統計的検定で有意になる現象が,書き手の無意識ないし意思にもとづく必然的な理由が存在することを示唆している,と考えられないかという期待が私にありま す.たとえば,Sを含む単語を使用するというのは一般的に無意識的だと仮定できます.この恣意性のごく薄い現象についてあるテキストのなかで,全体頻度に 比べある部分の頻度が偶然でなく高いということを客観的に評価したい,というのが私の目指すところです.もちろん論証という意味では状況判断にしかならな いかも知れませんけれども.

「特徴語」(「Sを含む単語」のようなものです)の出現は頻度が低いのでポアソン分布で近似できるのかなと置 いたのも,その観点の範囲内で申し上げた次第です.さきほど述べました考え方はやはり統計学的根拠で支えようがないのでしょうか.もし統計手法の適用に妥 当性があるとするならば,どのような手法,検定法が妥当なのでしょうか.

なんかうまく言えていないかも知れません.

No.06313 Re: 単語の出現頻度の評価について  【ひの】 2008/04/09(Wed) 01:49

 直接の回答ではありませんが,問題にされているような内容は「計量言語学」の範疇だと思います。このキーワードで参考書などの情報をお探しになることをお勧めします。

No.06316 Re: 単語の出現頻度の評価について  【birei】 2008/04/09(Wed) 10:12

>どのような手法,検定法が妥当なのでしょうか.
検定に拘る必要は無いと思います(多分解法は出ないでしょう)。
色んな本を読んでアイデアとエッセンスを理解して,ご自分の目的に沿う物があるとラッキー! 殆どの場合素人には解けそうに思えても実は難しい問題だったりする場合が多いと思います。
ここで具体的な回答が無いのは一般解法のケースが思い付かないからだと思います。
私は電気屋ですが答えは大偏差原理と金融工学に近い答えが有りそうな事に最近ようやく気が付きまして現在格闘中です。では頑張って下さい!

No.06318 Re: 単語の出現頻度の評価について  【安田】 2008/04/09(Wed) 11:15

ひの様,birei 様

コメント,ご提案ありがとうございます.
あまり軽率に判断しないで,計量言語学などの書籍を調べてみます.

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る