「統計学関連なんでもあり」の過去ログ--- 043

No.12094　スコアについて　　【学生Ａ】　2010/02/17(Wed) 22:20

テキストマイニングに関する文書で（スコア）という指標の説明が以下のようになっていました。（フォントの関係で表がずれたら済みません）

（意味）
その単語がどのくらいその群に偏って出現しているかを指標化したもの。
1に近づくほど偏りが大きく，その群に特徴的な単語であり，0に近づくほど他群でも平均的に出現する特徴のない単語となります。
その群でしか出現せず，その群内の全てのテキストで出現する場合に，スコアは1となります。マイナスのスコアは，他群に特徴として出ますが，選択群には出現しにくい単語となります。

単語        | 出現件数| 出現しない件数|  計
------------+---------+---------------+---------　　
対象群      |   a     |     b         |  a+b
------------+---------+---------------+---------
それ以外の群|   c     |     d         |  c+d
------------+---------+---------------+----------
  計        |  a+c    |    b+d        |   n

計算式：　±(ad-bc)^2/((a+b)*(c+d)*(a+c)*(b+d))

※(ad-bc)>=0のときプラス，(ad-bc)<0のときマイナスとして最大1，最小－1となるように加工してあります。

＜質問＞
教科書を読んでもよく分からなかったので教えてください。
統計学では通常，上の計算式で得られる値はどういう名称で，どういった分析に使うのでしょうか。
カイ二乗値の計算で　n　を乗じていない値のようですが。

No.12097　Re: スコアについて　　【青木繁伸】　2010/02/17(Wed) 22:41

近々，某所で，このような類の話をしなくてはならないことになっているので，興味津々です。

> カイ二乗値の計算で　n　を乗じていない値のようですが。

仰るとおりのようですね。計算される数値の，別の解釈は，「ファイ（φ）係数の二乗」ということです。
φ 係数とは，2×2分割表の場合の属性相関係数で，0/1データとみたときの（ピアソンの積率相関係数）相関係数です。積率相関係数の二乗は重相関係数（決定係数）ということです。決定係数をこの場合にあわせて解釈すると，「対象語が出現する頻度は，計算された値で説明できる」ということでしょう。計算された値がkだとすると，100*k％説明できるということです。
ちょっとややこしい説明ですけど，身長と体重の関係を例にとってお話しすると，以下のようになります。今回の例で計算される値は，身長と体重の相関係数の二乗に相当します。その数値は，「身長が体重を説明する割合」を意味するのです。

No.12104　Re: スコアについて　　【学生A】　2010/02/17(Wed) 23:42

> 仰るとおりのようですね。計算される数値の，別の解釈は，「ファイ（φ）係数の二乗」ということです。

コメント有難うございます。正式名称がわかって安心しました。
「φ2乗」という指標で，カイ2乗値のN倍　に等しいということですね。

テキストマイニングでは，ある単語が群ごとにどれだけ特徴的に（偏って）使われているかの判断に使っているようですが，どの程度+-1に近ければ特徴的な単語としてピックアップしてよいかの，ある程度の判断基準はあるでしょうか。