「統計学関連なんでもあり」の過去ログ--- 042

No.10888　カイ二乗検定について　　【さとる】　2009/09/16(Wed) 21:14

カイ二乗検定について基本的な質問です。
カイ二乗検定は検定統計量がカイ二乗分布に従うデータに対して用いると説明されています。そしてカイ二乗分布は定義から，正規分布に従うデータを用いて統計量としています。

しかしカイ二乗検定について調べると，代表的なノンパラメトリック検定であると説明されています。カイ二乗分布が正規分布に由来したものなら，どうしてカイ二乗分布に従うデータを検定するカイ二乗検定がパラメトリックでは無くて，ノンパラメトリックなのでしょうか？
何か根本的な理解不足があるかもしれません。御指摘の程，よろしくお願い致します。

No.10889　Re: カイ二乗検定について　　【青木繁伸】　2009/09/16(Wed) 21:49

カイ二乗検定という呼び方は止めましょう。
例えば，k×m 分割表の独立性の検定は，フィッシャーの正確検定やカイ二乗分布に近似される検定統計量ΣΣ(観察値ij－期待値ij)^2/期待値ij を使う検定（これも，カイ二乗検定と呼ばれるわけですが，いかに不適切な呼び方であることか）がありますね。今回は後者の検定について考察しましょう。この検定は確かに母集団のいかなる母数も使っていませんので，ノンパラメトリック検定（母分布に依存しない検定）です。この検定統計量からP値を求める段になって，帰無仮説の下でその検定統計量が何に従っているだろうか（何で近似できるだろうか）ということで，カイ二乗分布が出てくるわけです。

> カイ二乗分布は定義から，正規分布に従うデータを用いて統計量としています

どういう検定でしょうか？母分散の検定？確かに,母分散の検定は正規母集団からの標本を対象にしますが，それは，等分散の2つの正規母集団からのデータを対象にして平均値の差の検定をするとき，その検定統計量はt分布に従うということですから，所詮その程度の関係しかないわけです。

> どうしてカイ二乗分布に従うデータを検定するカイ二乗検定

「カイ二乗分布に従うデータ」というのは，ないでしょう？カイ二乗分布を利用する，上述の独立性の検定でも，分割表の個々のセルの観察度数がカイ二乗分布に従うわけではありません。「個々のセルの観察値から期待値を引いたものの二乗を期待値で割ったもの」それぞれは，自由度1のカイ二乗分布に従う（その平方根をとったものは正規分布に従う）。そのようなものを全てのセルについて求めて合計したら，自由度（k-1)*(m-1) のカイ二乗分布に従います（カイ二乗分布の再生性）ということです。

このような，＊検＊定＊統＊計＊量＊が＊どのような分布に従うのかは，元のデータがどのような分布に従うのかとか，その検定がノンパラメトリックかどうかと言うのとは＊無＊関＊係＊で＊す＊。たとえば，マン・ホイットニーの U 検定は，母分布に関係なく（つまり，母分布が指数分布や一様分布であっても）適用できるので，ノンパラメトリック検定と呼ばれます。マン・ホイットニーの検定統計量からP値を計算するには，データ数（サンプルサイズ）が小さい場合には検定統計量の正確な分布がわかっていますから，近似など不要で，正確なP 値が求まります。しかし，サンプルサイズが大きくなるとそのようにして正確な分布からP値を求めることができないので，＊正＊規＊分＊布＊で＊近＊似＊し＊て＊P値を求めるのが普通です。つまり，検定統計量の平均値と標準偏差を使って，標準化得点（Z値）を求め，標準正規分布からP値の近似値を求めるのです。

No.10899　Re: カイ二乗検定について　　【さとる】　2009/09/18(Fri) 17:10

青木先生

丁寧なお返事有難うございます。私は今後，臨床試験に携わらなければならず，そのため本やネットを用いて苦しみながら勉強しているところです。生物統計家が身近におらず，このサイトの存在を知り，今回このような初歩的な質問をさせて頂きました。

今回の御返答から自分の勘違いが明らかにされたと思います。
今までは検定統計量を算出する際に用いられたデータの分布が，検定統計量が従う分布を決定するという誤解がありました。
ご指摘ありがとうございました。