「統計学関連なんでもあり」の過去ログ--- 042

No.08245　カイ二乗統計量に基づかない2×L分割表の検定手法と関連性の指標　　【suzuki】　2008/11/14(Fri) 14:31

以下の場合に適用可能な検定手法と関連性の指標をご存知でしょうか？
(1) 期待値が 1 未満の桝目が 1 つでもある，(2) 期待値が 5 未満の桝目が全体の桝目の数の 20 % 以上ある，(3) 2×2分割表ではない（例えば，2×10分割表）

(1)と(2)の場合，カイ二乗統計量に基づく検定や関連性の指標（例えば，クラメール係数 V）は適用できません。(3)の場合，「フィッシャーの正確確率検定」は適用できません。

（参考）いくつかの注意点 http://aoki2.si.gunma-u.ac.jp/lecture/Cross/warning.html 名義尺度間の相関 http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/nominal.html

No.08246　Re: カイ二乗統計量に基づかない2×L分割表の検定手法と関連性の指標　　【青木繁伸】　2008/11/14(Fri) 17:00

> (3)の場合，「フィッシャーの正確確率検定」は適用できません。

あれ？
できますよ。
http://aoki2.si.gunma-u.ac.jp/R/fisher.html
もっとも，そこから先の関連性の指標はどうやって計算するか知りません。

回答するには情報不足ですが，2xL の L の方は名義尺度変数なのですか（順序はないのですか）
たぶん，カイ二乗統計量といっているわけだから名義尺度だとは思いますが。念のため確認。

No.08248　Re: カイ二乗統計量に基づかない2×L分割表の検定手法と関連性の指標　　【suzuki】　2008/11/14(Fri) 17:25

アドバイスありがとうございます。私の勘違いでした。

> 回答するには情報不足ですが，2xL の L の方は名義尺度変数なのですか（順序はないのですか）
> たぶん，カイ二乗統計量といっているわけだから名義尺度だとは思いますが。念のため確認。

はい。名義尺度です。2xLの，2は有無，Lはアルファベットです。

No.08251　Re: カイ二乗統計量に基づかない2×L分割表の検定手法と関連性の指標　　【青木繁伸】　2008/11/14(Fri) 18:03

2群判別の数量化II類 ≡　ダミー変数を使う2群判別　≡ 従属変数が2値のときのダミー変数を使う重回帰分析
ということで，数量化II類の出力結果に含まれる相関比が重回帰分析の場合に含まれる決定係数（重相関係数の二乗）ということですよね。
ということで，今の場合は，2xLの2の方を0/1（でもなんでもいいけど二値変数）の従属変数，Lが名義尺度であるから（L-1）個のダミー変数を作り，それで重回帰分析を行い，決定係数の平方根が重相関ということ。その重相関は要するにL個のカテゴリーと群の間の「総合的な関連を表す係数」ととらえればよいのでは。
検定については，重相関係数も決定係数もその検定は，回帰の分散分析と等価。
ということで，いかが？
まあ，結局の所「数量化II類（に限らず数量化理論は？）は，観察数が少ないカテゴリーを重要視しすぎる」ということがあるので，これは，カイ二乗統計量を計算するときに期待値の小さいセルの計算値がカイ二乗値に必要以上に寄与するということとまあ，同じ事になるので，五十歩百歩かな。
でも，まあ，こんなデータの場合に相関比や決定係数ましてや重相関係数の二乗等というものが出てきたら，たいていの人は，いぶかるだろうねぇ。

なお，追加しておくと「相関比は，回帰直線や，他の回帰曲線を前提とすることなく，独立変数の値の知識を用いて従属変数の値を予測することによって導かれる」ものなので，妥当性を持つものである。