「統計学関連なんでもあり」の過去ログ--- 043

No.12877　グループ分けが観察不能な時の回帰分析　　【オボロ】　2010/06/21(Mon) 13:54

いろいろと調べたのですが，わからなかったので質問させて頂きます。
今，手元に2変量のデータがあって，（xi,yi）とした時に，yiは被説明変数，xiを説明変数とします。
母集団は本質的に二つからなっているが，そのデータがどちらの母集団に入っているのかは観察不能という状況です（グループ分けが未知変数）。つまり， yi=b11*xi+b21 とyi=b12*xi+b22という二つの式のどちらかから生成されたデータがある時に，b11~b22を推定する方法をご存じの方がいれば，教えていただけないでしょうか？
下手な文章で申し訳ございません。

概念的にはクラスター分析と回帰分析をあわせたような感じだとは思うのですが。

No.12879　Re: グループ分けが観察不能な時の回帰分析　　【ひの】　2010/06/21(Mon) 17:28

散布図を書いてみて，明らかに2つの集団が見て取れるようならなんとかなると思いますが，散布図を見ても1つの集団にしか見えないようなら手の施しようがないと思います。

（xi,yi）を二つに分割して（分割の仕方は2^n通りある），それぞれが異なるモデルに従うとして最小自乗法の計算をする。これを2^n通り全て行って残差平方和が最小とかAICが最小のものを最も適当な分割法として選ぶ。

一応上記の方法が使えると思いますが，2^n通りというのはとんでもない数ですから現実には難しいと思います。

No.12893　Re: グループ分けが観察不能な時の回帰分析　　【オボロ】　2010/06/23(Wed) 11:11

”ひの”さん，ありがとうございました。
現実的には難しいのですね。

僕のデータは，散布図を見ると一部を除いてみて取れるほどわかれてますし，計算の仕方を工夫すれば，出来るかもしれません。
挑戦してみます。

詳しい回答ありがとうございました。

No.12894　Re: グループ分けが観察不能な時の回帰分析　　【ひの】　2010/06/23(Wed) 15:03

>散布図を見ると一部を除いてみて取れるほどわかれてますし，

　それならば，もうちょっと現実的な手法が使えるでしょう。

まず散布図を見て明らかに異なる2つのデータ集団（A,B）と，その中間でどちらかわからないデータ(C)に手作業で分割する。

A,Bにそれぞれモデル（この場合は回帰直線）を当てはめる計算をする。
グレーゾーンのCのデータについては，先のコメントに示したように可能な全ての振り分け方について計算しなおして最適な割り当てを探すと良いけれど現実には大変なので，もうちょっと楽な方法を考えてみましょう。
C のデータから1個だけとりだして，それをAに含めた場合とBに含めた場合の計算をしてどちらの場合がAICが小さくなるか（この場合は残差平方和最小というのと同じ）をみる。これをCのデータ1個1個全てについて行なうとグレーゾーンだったCのデータもAに帰属するものとBに帰属するものに分割できます。
こうして帰属先の決まったCのデータをA,Bにいれた上でもう一度それぞれの回帰計算をする。
最後にチェックとして，この状態からもとCだったデータの帰属を1個だけ入れ替えて計算してみてAIC（あるいは残差平方和）が小さくならないことを確認する。