No.04573 安定性を求めたいのですが  【Arle】 2007/10/24(Wed) 15:43

次のようなことを調べたい場合,どういった手法をとればよいのでしょうか

ある新聞記事N1があるとします。記事を解析し,単語数の頻出統計を出すとします。たとえば記事N1を解析した結果得られる統計は次のようなものになります

新聞記事N1の単語数の統計S1
-------------------------------------------------
 単語|明日|事件|人 |政治|・・・ |総単語数 |
------|-----------------------------|---------|
単語数| 98 | 85 | 67 | 39 |・・・ | 9789 |
-------------------------------------------------

次に別の日付の新聞記事N2を用意し,次はN1とN2のふたつに対して単語数の統計を出します。

新聞記事N1とN2の単語数の統計S2
-------------------------------------------------
 単語|明日|事件|人 |政治|・・・ |総単語数 |
------|-----------------------------|---------|
単語数| 135| 102| 159| 51 |・・・ | 16349 |
-------------------------------------------------

このようにして記事を増やして,単語の頻出統計を出していきます。記事はそれぞれ別のものを用意するため,出現する単語の種類や総単語数に対する出現数の比率にばらつきがある状態です。
しかし,記事数を増やしていけば新出単語もなくなり,単語の出現度合のばらつきもある程度安定してくるはずです。

統計学を用いて,このような単語の頻出の度合が安定してきたかどうかを判断するよい方法はないでしょうか。

はじめは独立性の検定を用いてどうにかできないものかと考えたのですが,統計学については詳しくないので,どうもうまくいきません。よい方法がありましたら教えていただきたく思います。
どうぞよろしくおねがいします。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る