「統計学関連なんでもあり」の過去ログ---033

★ クラスター解析 ★

6446.　クラスター解析　学徒　2005/04/14 (木) 22:38
├6449.　Re: クラスター解析　青木繁伸　2005/04/14 (木) 23:14
└6447.　Re: クラスター解析　青木繁伸　2005/04/14 (木) 23:08
　└6450.　Re^2: クラスター解析　学徒　2005/04/15 (金) 00:10

6446.　クラスター解析　学徒　　2005/04/14 (木) 22:38

こんにちは。二値変数(0と1のみ)からなるサンプル数5000，カテゴリ数50のデータをクラスター解析しようと考えています。統計ソフト"R"を用いて，k-meansを試みたのですが，どうやら"R"でのk-meansは，あるサンプルaとサンプルbの類似度を，ユークリッド距離の二乗( Σ(ai-bi)**2 ,i=1...50)で定義しているみたいです。そこで自分でk-meansのプログラムを書きたいと思っています。そこで質問があります。

1,今回用いるデータは，5000人に対する，50項目の商品を持っているか場合は"1"，持っていない場合は"0"，つまり完全な二値データです。多くの同じ商品を持っている人同士を同じクラスタに入れたいと考えています。そこで，あるサンプルxとyの類似度は
a = x,yともに1である項目，b = xは1だが，yは0である項目，
c = xは0だが，yは1である項目， c=x,yともに0である項目。
とすると，類似度 = a/a+b+c で定義しようと考えています。しかし参考書によっては　単純に類似度 = aとか，類似度 = a/p(今回の場合p = 50)，となっています。今回の解析の場合どの類似度の定義がふさわしいのでしょうか?

2,各クラスターの重心の初期位置は，ランダムに決めて良いのでしょうか?各重心を不適切な初期位置に配置すると，局所解に陥り，不完全な分類のまま収束してしまうと聞いたことがあります。

下手な文ですが，よろしくご指導下さい。

　　　　　[このページのトップへ]

6449.　Re: クラスター解析　青木繁伸　　2005/04/14 (木) 23:14

あ，間違えた。

類似度なら，(a+d)/(a+b+c+d) か。。。

でも，類似度の定義も，ユークリッド距離を計算するとか，先の a/(a+b+c+d) とかあるいはまさに a/(a+b+c) なのか，あるいは，やはり (a+b)/(a+b+c+d) なのかとか，まさに「定義による」わけで，どの定義による類似度が妥当なのかは，理論的に結論を付けることもできるだろうし，そのように定義した類似度でクラスター分析した結果のどれが優れた（解釈しやすい）結果なのかを見れば分かるでしょう。

要するに，ここで，あれこれ聞くより，一応いろいろやってみて，その結果を添えて質問すればより建設的な質疑応答ができるのではないかと言うこと。

　　　　　[このページのトップへ]

6447.　Re: クラスター解析　青木繁伸　　2005/04/14 (木) 23:08

揚げ足をとるようで，心苦しいですが，

> 1,今回用いるデータは，5000人に対する，50項目の商品を持っているか場合は"1"，持っていない場合は"0"，つまり完全な二値データです。多くの同じ商品を持っている人同士を同じクラスタに入れたいと考えています。そこで，あるサンプルxとyの類似度は
> a = x,yともに1である項目，b = xは1だが，yは0である項目，
> c = xは0だが，yは1である項目， c=x,yともに0である項目。

d=x,yともに0である項目
ではないですか？

> とすると，類似度 = a/a+b+c で定義しようと考えています。

a/a+b+c は，演算子の優先順位から言うと
(a/a)+b+c ですよ。そんなはずないですよね。
あなたの意図を正確に表現するには，a/(a+b+c) と書かねばなりません。中学生レベルの数学の常識です。

しかし，それでも，前の定義ミスと組み合わされると，それは，
a/(a+b+c+d) というつもりなんでしょうか。

> しかし参考書によっては　単純に類似度 = aとか，類似度 = a/p(今回の場合p = 50)，となっています。今回の解析の場合どの類似度の定義がふさわしいのでしょうか?
後者だとすると，a でも a/p = a/(a+b+c+d) でも同じでしょう？

> 2,各クラスターの重心の初期位置は，ランダムに決めて良いのでしょうか?各重心を不適切な初期位置に配置すると，局所解に陥り，不完全な分類のまま収束してしまうと聞いたことがあります。

ですから，それは実際にやってみればいいじゃないですか。

初期位置を色々変えて，不安ならば，1万回でも100万回でも初期位置をランダムに変えてでも，いつも同じ解に収束するのか，そうでないのか。
もし，必ずしも同じ解にならないなら，どの程度で最も解釈しやすいもっともらしい解になるかを調べれば良いじゃないですか。

　　　　　[このページのトップへ]

6450.　Re^2: クラスター解析　学徒　　2005/04/15 (金) 00:10

その通りですね。とにかく類似度や初期位置を色々変えて，プログラムを作ってみたいと思います。結果が出たらまた必ず報告に来ます。

　　　　　[このページのトップへ]