「統計学関連なんでもあり」の過去ログ--- 040

No.03106　クラスター分析の分類結果の妥当性について　　【しゅん】　2007/04/02(Mon) 11:12

はじめまして．

現在，クラスター分析により”あるデータ群”をいくつかのグループに分類しています．
このとき，複数の説明変数をいくつかのパターンに組み合わせ，
主成分分析により統合した値や，そのままの値などを説明変数としています．

そうすると，当たり前ですが，いくつかの結果がでてきます．
これら結果の中で，どれが最も適当なグループに分類できたと判定すればいいのか教えていただけないでしょうか．

判別分析の場合ですと，元々のグループがあり，それと推定結果との整合性を検定すれば良いかと思いますが，
クラスター分析の場合，元々グループ自体が存在しないため，どうしたら良いものかと．．．
この結果が．．．というのは主観的にはあるのですが，他の人に上手く説明することができないかと悩んでおります．

誠に申し訳ありませんがよろしくお願いします．

No.03107　Re: クラスター分析の分類結果の妥当性について　　【にゃんちゅう】　2007/04/02(Mon) 21:08

推計学的に分類が妥当だということは難しいでしょう．

(1)見た中では，分類されたグループを使用した項目を使って
判別分析してどの程度判別できるかをみるとか。

(2)SPSSの2段階クラスター分析のようにBICのような情報量等を
使ってみるとかの方法があるようです。

その他にも新しい方法が提案されているようですが，詳しくは知
りません。

No.03154　Re: クラスター分析の分類結果の妥当性について　　【hs】　2007/04/09(Mon) 05:46

http://www1.doshisha.ac.jp/~mjin/R/200703_44.pdf
5. クラスター分析とブートストラップ
に，クラスター分析結果のブートストラップ法による評価が紹介されています。

No.03156　Re: クラスター分析の分類結果の妥当性について　　【にゃんちゅう】　2007/04/09(Mon) 15:06

http://www.is.titech.ac.jp/~shimo/prog/pvclust/index.html
にありますね。

No.03162　Re: クラスター分析の分類結果の妥当性について　　【kzkishi】　2007/04/10(Tue) 12:50

http://www.ism.ac.jp/editsec/toukei/pdf/50-1-033.pdf
に
”これはクラスタ分析という手法の性能評価をしているのではなく，データが本来持っている情報の不確実性を定量的に評価している．”
と書いてあるように，下平氏のマルチスケール・ブートストラップによる評価は，クラスタの（データのバラつきに対する）頑健性を評価するもののようです。

この手法で，しゅんさんのご投稿にあった
>これら結果の中で，どれが最も適当なグループに分類できたと判定すればいいのか教えていただけないでしょうか．
という問いに答えるのは，ちょっと難しいのではないかと思います。

この問いには，
>推計学的に分類が妥当だということは難しいでしょう．
というにゃんちゅうさんのお答えが最も適切かと思います。

ググった中では，
http://www.kamishima.net/jp/clustering/
の「クラスタリングの注意点」項の「クラスタリング結果の解釈」欄に判り易い説明が記載されています。

適当なグループ，という言葉の定義によりますが，普通に考えると，適当なグループに分類できたというのは，あらかじめ主観的に分類したグループと合致するように分類できた，という意味で言うことが多い気がします。
で，そういう評価を定量化するのは難しい，ということです。
それでも評価するとしたら，妥協して，この場合の適当とは，何々がどうこうである場合を適当とすることとした，みたいな注意書き付きの評価をする，ということになるでしょうか。
ノー・フリー・ランチですね…（ちょっと違うか…）。

No.03177　Re: クラスター分析の分類結果の妥当性について　　【しましま】　2007/04/11(Wed) 15:39

http://www.kamishima.net/jp/clustering/ の主です．

「適当なグループ」といった場合，次の二つの場合が想定されると思います．
(1) 主観的に何か「正しい」グループがあり，それをクラスタリングで自動抽出したい
(2) 与えられたデータを要約するような結果を得たい

(1)の場合は三つあって
(1a) 具体的に適切なグループの規準がある
(1b) 具体的な適切なグループの例題集合がある
(1c) どちらも用意できないけど，みんなが適切だと思うようなグループはある

(1a) は符号圧縮とかの場合で，問題なく評価できるでしょう
(1b) は，得られたグループと，例題のグループの近さを Rand Index などの分割の類似尺度で，例題グループに最も近いものをがよいといえるでしょう
こうした尺度は Jain&Dubes のクラスタリングの教科書や，上記のページの[Dubes 79]などをご参考にされると良いと思います
(1c) ならば，人を集めてアンケート調査をするなどの方法しかないと思います．

(2) の場合なら，クラスタリングする前後で，要約によって無くなって欲しくない情報というのがあるはずです．そうした指標をクラスタリングの前後で求め，最も損失のないものがよいといえるでしょう．

以後，私見が強くなりますが，真に帰納的な言明は事実の列挙しかありません．なので，どんな評価も解析も主観が皆無ではありません．例えば，判別分析でも，エラーを正解率で測るというのも一つの主観といえるでしょう．再現率やエントロピーなどの他の主観でみれば，適切な結果は変わります．

ですので，先にコメントされた方々がおっしゃるように，クラスタリングの結果に何をもとめているかを再検討されることをお薦めします．以上，ご参考となればさいわいです．