「統計学関連なんでもあり」の過去ログ--- 040

No.02389　混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ぽけ】　2007/01/21(Sun) 20:26

複数の正規分布を足し合わせた混合正規分布に適合しているかどうかをカイ二乗分布を用いて検定したいのですが，自由度がわかりません．
下記は，今考えている自由度数です．
（恥ずかしいほど冗長な文章で申し訳ありません）

（1つの）正規分布への適合度の検定の際の自由度は，
「カテゴリー数－3」．
なぜならば，ケース数nの標本をk個のカテゴリーに分割する場合，各カテゴリーに属するケースの和はnであるという制約があるので1つ，そして，母平均と母分散の推定を行うためにさらに2つ，自由度が減るから．

では，2つの正規分布を混合させたモデルへの適合度を検定する場合には，
「カテゴリー数－6」．
なぜならば，各カテゴリーに属するケースの和はnであるという制約によって1つ（1つの正規分布と同じ），2つの正規分布の平均と分散をそれぞれ推定するために4つ，さらに，どちらか片方の正規分布に属するケース数を推定するので1つ(もう1つの正規分布に属するケース数はおのずと決まる)，自由度が減るから．

もうひとつ，3つの正規分布を混合させたモデルへの適合度を検定する場合には，
「カテゴリー数－9」．
なぜならば，各カテゴリーに属するケースの和はnであるという制約によって1つ，3つの正規分布の平均と分散をそれぞれ推定するために6つ，さらに，3つのうち2つの正規分布に属するケース数を推定するの2つ，自由度が減るから．

上記の内容はあっているのでしょうか，もしくはどこで誤っているのでしょうか．
すっかり混乱しています．
そもそも自由度についての理解があいまいなのです．．．
どなたかアドバイスを下さい．

No.02390　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【青木繁伸】　2007/01/21(Sun) 21:17

2つの分布の合成のとき，
f(x) = p*f(x;μ1,σ1)+(1-p)f(x;μ2,σ2) となり，パラメータが5つになるんだから，自由度は5+1減るというので，あっていると思いますよ。
ただ，パラメータを増やしていくと適合度は良くなる傾向なので，どのあたりまで増やすか問題ですね。AICなんかで評価するのも良いとは思いますが。

No.02391　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ファン】　2007/01/22(Mon) 00:51

ぽけさんは，対数尤度ではなく，階級区分したデータの観測度数と期待度数をカイ自乗検定することを考えておられるようなので，その場合は常に「階級の数－1」がカイ自乗の自由度になるような気がします（漸近理論なので期待度数の推定誤差は無視）。しかし連続型データの階級区分はやや恣意的ですし，もしも分布の定式化を比較するのが目的なら，尤度比検定やAICなどによる比較の方が良いかもしれませんね。私は混合分布の推定問題を扱った経験がないので，判断できませんが…（汗

No.02395　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【青木繁伸】　2007/01/22(Mon) 08:53

> その場合は常に「階級の数－1」がカイ自乗の自由度になるような気がします

データから母数を推定して適合度の検定を行うときには，推定した母数の個数だけ自由度は減ります。

No.02401　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ひの】　2007/01/22(Mon) 11:38

　階級区分してカイ二乗検定を行なうには相当膨大なデータが必要になりますね。そういうデータならそれでよいですけれど，サンプルサイズがそれほど大きくないのならコルモゴロフ・スミルノフ検定のほうが良いと思います。こちらには自由度という概念はなかったと思います。

No.02402　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【takahashi】　2007/01/22(Mon) 12:12

Kolmogorov-Smirnov testはデータからパラメータ推定した分布に対して使っちゃダメという制約があったような気がします。

http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm
のCharacteristics and Limitations of the K-S Test の3ですね。

最後の
＞It typically must be determined by simulation.
という一文がいまいち良くわかりませんが。

観測値 vs. シミュレーションから推定された分布，或いは理論的な分布との適合度の検定に使える，ということでしょうかね。

No.02403　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【takahashi】　2007/01/22(Mon) 12:24

追記です。Rのks.testのhelpにもこんな記述がありました。

If a single-sample test is used, the parameters specified in '...'
must be pre-specified and not estimated from the data. There is
some more refined distribution theory for the KS test with
estimated parameters (see Durbin, 1973), but that is not
implemented in 'ks.test'.

No.02404　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ひの】　2007/01/22(Mon) 13:02

>Kolmogorov-Smirnov testはデータからパラメータ推定した分布に対して使っちゃダメという制約があったような気がします

この検定に限らす，駄目のような気がします(^^;)。アプリオリなモデルではなくてパラメータをフィッティングして求めたモデルを比較して最適な（最もマシな）モデルを探すなら，フィッティングの時に最小二乗法を使うと思いますので，そのときの残差平方和などからAICが求まりますね。それを使ってモデル選択するのがよろしいかと思います。モデル選択の問題では「検定」というのはあまり意味のない作業だと思います。

No.02405　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【takahashi】　2007/01/22(Mon) 13:26

＞そういうデータならそれでよいですけれど，サンプルサイズがそれほど大きくないのならコルモゴロフ・スミルノフ検定のほうが良いと思います。

との指摘があったので，今回はパラメータ推定を行っているのでKS testは使っちゃダメなのでは？，ということです。誤解していたら申し訳ありません。

質問者のやりたいことがモデル選択であれば，AICなりを使えばいいというのは，全く異論ありません。

余談かもしれませんが，モデル選択で最もマシなモデルが見つかっても，それがどれくらいマシなのかという指標が求められることはあるかと思います。そんな時はやはり適合度検定などが必要になってくるのではないでしょうか？
ぜひ専門家の意見をお聞きしたいところです。

No.02406　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ひの】　2007/01/22(Mon) 15:10

>余談かもしれませんが，モデル選択で最もマシなモデルが見つかっても，それがどれくらいマシなのかという指標が求められることはあるかと思います。そんな時はやはり適合度検定などが必要になってくるのではないでしょうか？

　適合度の検定は「論外のモデルを棄却する」ことしか出来ませんから，選択候補のモデルは皆検定をパスするでしょう。複数のモデルのなかで一番マシなモデルが他よりどの程度マシかというのはまた別の発想で検定する必要がありますね。ブートストラップ法で同じモデルが選択される確率を求めるとか。

No.02407　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ファン】　2007/01/22(Mon) 19:09

>> その場合は常に「階級の数－1」がカイ自乗の自由度になるような気がします
>データから母数を推定して適合度の検定を行うときには，推定した母数の個数だけ自由度は減ります。

「階級の数を少なくして行くと自由度が負になるのはヘン」と思ったのですが，早合点でした（汗。（階級区分したデータから母数を推定して，同じ階級区分で検定する話が理論的なベース？）
例えば，偶数個の観測値を中央値で分けて大小2階級に区分し，その中央値を平均とする正規分布を仮説に置けば，ピッタリ適合しちゃいます。混合分布なら，階級の数が多い場合でも，ピッタリにできちゃいますね。
ということで，青木先生やひのさんのコメントにあるように，適合度検定では説得力を失いそう。

No.02450　Re: 混合正規分布への適合度をカイ二乗分布を用いて判定する際の自由度　　【ぽけ】　2007/01/25(Thu) 10:33

いくつものコメントとアドバイスをいただいて，本当にどうもありがとうございます．
ファンさんが書いてくださった「対数尤度比検定」にすっかり溺れているうちに(今もその最中ですが)，時間ばかりが経ってしまって，御礼が遅くなり，失礼いたしました．重ね合わせる正規分布の数はAICによって，とりあえず選択することができました．今は，選択した混合正規分布モデルが観測データに「適合」しているかをチェックしようとしています．ファンさんが書かれた「対数尤度比検定」はモデル選択のためのもので，“BIOMETRY”（Sokal and Rohlf）にある「対数尤度比検定（G検定）」は(予測モデルと観測データの)適合性の検定のための手法なのですね．Sokalらは適合性の検定法として，カイ二乗検定よりもG検定を推奨しているようですが，二項分布モデルが例になっていて，混合正規分布モデルへどのように応用するべきなのか，えっちらおっちら勉強しています．