単語 | 出現件数| 出現しない件数| 計<質問>
------------+---------+---------------+---------
対象群 | a | b | a+b
------------+---------+---------------+---------
それ以外の群| c | d | c+d
------------+---------+---------------+----------
計 | a+c | b+d | n
計算式: ±(ad-bc)^2/((a+b)*(c+d)*(a+c)*(b+d))
※(ad-bc)>=0のときプラス,(ad-bc)<0のときマイナスとして最大1,最小−1となるように加工してあります。
No.12097 Re: スコアについて 【青木繁伸】 2010/02/17(Wed) 22:41
近々,某所で,このような類の話をしなくてはならないことになっているので,興味津々です。
> カイ二乗値の計算で n を乗じていない値のようですが。
仰るとおりのようですね。計算される数値の,別の解釈は,「ファイ(φ)係数の二乗」ということです。
φ 係数とは,2×2分割表の場合の属性相関係数で,0/1データとみたときの(ピアソンの積率相関係数)相関係数です。積率相関係数の二乗は重相関係数(決 定係数)ということです。決定係数をこの場合にあわせて解釈すると,「対象語が出現する頻度は,計算された値で説明できる」ということでしょう。計算され た値がkだとすると,100*k%説明できるということです。
ちょっとややこしい説明ですけど,身長と体重の関係を例にとってお話しすると,以下のようになります。今回の例で計算される値は,身長と体重の相関係数の二乗に相当します。その数値は,「身長が体重を説明する割合」を意味するのです。
No.12104 Re: スコアについて 【学生A】 2010/02/17(Wed) 23:42
> 仰るとおりのようですね。計算される数値の,別の解釈は,「ファイ(φ)係数の二乗」ということです。
コメント有難うございます。正式名称がわかって安心しました。
「φ2乗」という指標で,カイ2乗値のN倍 に等しいということですね。
テキストマイニングでは,ある単語が群ごとにどれだけ特徴的に(偏って)使われているかの判断に使っているようですが,どの程度+-1に近ければ特徴的な単語としてピックアップしてよいかの,ある程度の判断基準はあるでしょうか。
● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る