★ クラスター分析の分類数について ★

7677. クラスター分析の分類数について はばはば 2005/09/16 (金) 11:55
└7682. Re: クラスター分析の分類数について 青木繁伸 2005/09/16 (金) 12:50
 └7683. Re^2: クラスター分析の分類数について はばはば 2005/09/16 (金) 13:27
  └7686. Re^3: クラスター分析の分類数について 青木繁伸 2005/09/16 (金) 14:00
   └7687. Re^4: クラスター分析の分類数について はばはば 2005/09/16 (金) 14:47


7677. クラスター分析の分類数について はばはば  2005/09/16 (金) 11:55
始めまして,最近クラスター分析を試みているのですが,解らないことがあります。どなたかご存知でしたらご教授お願いします。

Black -Boxにおいてクラスター分析をしました。クラスタに分けれたのは良いのですが,どこでクラスター数を区切ったらいいのか解らず。いろいろ調べてみると bealeやPseudoなどで分類の指標が得られると解りました。そこなのですが統計的に初心者ですのでどのようにしたらbealeやPseudoが求 められるのかがよくわかりません。手元のソフトは,エクセルしかありません。これで求められますか?bealeやPseudoについてわかりやすく載って いるHPを教えてください。
 現在私は,bealeの載っているHPのこの説明でとまどっています。

2つのクラスター結果C1とC2(クラスター数はそ
れぞれc1,c2でc1>c2)があったとする。W1,W2
をそれぞれのクラスター内のクラスター平均
からの偏差平方和とすると,ビールのF値は,
F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]
で定義される。ただし,
n=全個体数,k1=c1
-2/p,k2=c2
-2/p,p=変数の数

 W1,W2の求め方が解りません。私のデータは30の個体の100の変数でクラスター分析しました。
 pとは何を示しているのか解りません。

     [このページのトップへ]


7682. Re: クラスター分析の分類数について 青木繁伸  2005/09/16 (金) 12:50
>  現在私は,bealeの載っているHPのこの説明でとまどっています。

そのページの URL を書いてください

>  W1,W2の求め方が解りません。

そうですね。説明からは,多変量データのときにどうやって求めて良いか不明瞭ですね。

>  pとは何を示しているのか解りません。

変数の個数と書いてあるようですが?つまり,あなたの場合は p=100

     [このページのトップへ]


7683. Re^2: クラスター分析の分類数について はばはば  2005/09/16 (金) 13:27
 ご返事,ありがとうございます。
 青木繁伸先生のご質問にお答え致します。
> >  現在私は,bealeの載っているHPのこの説明でとまどっています。
>
> そのページの URL を書いてください

http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf
のPDFですのでその中の29ページです。

あと,これにも同様なことが書かれていましたが式のみです。
http://stat.bus.utk.edu/Stat579/Hierarchical%20Clustering%20Methods.pdf

>
> >  W1,W2の求め方が解りません。
>
> そうですね。説明からは,多変量データのときにどうやって求めて良いか不明瞭ですね。
 私は,何の事やらよくわかりません。
>
> >  pとは何を示しているのか解りません。
>
> 変数の個数と書いてあるようですが?つまり,あなたの場合は p=100
 そうですね。送った後,解りました。

 よろしくお願い致します。

     [このページのトップへ]


7686. Re^3: クラスター分析の分類数について 青木繁伸  2005/09/16 (金) 14:00
> > そうですね。説明からは,多変量データのときにどうやって求めて良いか不明瞭ですね。
>  私は,何の事やらよくわかりません。

多変量の場合は単純に各変数の測定値とクラスター中心の差の二乗和ですね。
言い換えれば,ユークリッド距離の二乗です。

具 体的に書くと,変数が x, y, z の3つあるとして,クラスターの中心が (xc, yc, zc)であるとして,あるケースの測定値が (x1, y1, z1) なら,(x1-xc)^2+(y1-yc)^2+(z1-zc)^2 で,同様にそのクラスターに含まれる全ケースについて(xi-xc)^2+(yi-yc)^2+(zi-zc)^2 を計算し,更に,全てのクラスターで同じように計算したものを全部を合計したものが偏差平方和ですね。

ただし,分散の異なる変数を同じように扱って良いのかどうかという点については疑問がありますので,原論文をチェックするとよいでしょう。

     [このページのトップへ]


7687. Re^4: クラスター分析の分類数について はばはば  2005/09/16 (金) 14:47
青木繁伸 様

 ご回答ありがとうございました。これからもう一度考えてみます。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 034 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る