No.13886 主成分分析の有意な群分け  【みら】 2010/11/29(Mon) 19:47

はじめまして。
統計学は全くの素人でして,主成分分析における有意な群分けについて質問させてください。

例 えばA群(n=4)とB群(n=4)のサンプルが有って,それらを主成分分析したとします。その際PC2の軸方向でPC1軸を境にしてn=3ずつA群とB 群がクラスタリングできたとします。しかし各群のうちの1サンプルについてはn=3のサンプルが位置している座標とは反対側に存在していたとします。

この場合,1つの群内における個体差の大きいサンプルは無視して「N=3で有意に群分けが出来た」と言及しても良いのでしょうか?

そもそも群分け・クラスタリングで各群が「有意に」クラスタリングできるとは,どうやって判断するのでしょうか?

詳しく教えて頂きたく存じます。よろしくお願いします。

No.13887 Re: 主成分分析の有意な群分け  【青木繁伸】 2010/11/29(Mon) 20:22

4サンプルずつでクラスタリングしても,あまり意味のある結果にはならないような気がしますし,主成分分析はクラスタリングに適しているとは言えません。
ク ラスタリングで「有意に」というのも,あまりなじまない表現とは思いますけど,クラスタリングの結果によってグループ分けされた群において,ある特性値に 有意な差があるのないのということはあるかもしれませんけど。あるいは,何次元かの主成分得点を使って,元の二つの群の主成分得点の平均値に有意な差が見 られるかどうかということとか。
「統計学は全くの素人でして」と自らおっしゃっているので,あなたのやりたいことは他にもっと適切なやり方があるのではないかと言う逆質問も含めてコメントします。

No.13889 Re: 主成分分析の有意な群分け  【みら】 2010/11/29(Mon) 20:49

青木先生

お返事有り難うございます。
今回はN数も4と少ないので,主成分分析には向いていないと思われます。もともと主成分分析を行ってデータを解析する手法も全くの無知な状態から始め,ある方に主成分分析を用いたデータ解釈の手法を学ぶ研修を受けた際に出た結果が上記のような内容になったりました。
各サンプルを構成する情報(成分と呼んでよろしいのでしょうか)は非常に多く,約500成分程度になります。それらの成分で構成される4サンプルvs4サンプルの群間でのクラスタリングが可能かを見ようと考えていました。

分かりにくい説明ですみません。

他のやり方もあるかも知れませんので検討は必要ですが,上記のように研修で教えて頂いた方,主成分分析を用いてデータ解析を行い論文発表をされているので,習いました。

No.13890 Re: 主成分分析の有意な群分け  【青木繁伸】 2010/11/29(Mon) 21:05

> 各サンプルを構成する情報(成分と呼んでよろしいのでしょうか)は非常に多く,約500成分程度

つ まり,それは普通の統計解析で言えば変数ということでしょう。ある固体の特性を表現する数値。よくわかりませんけどたとえば,ある物質の周波数別応答値と か吸光度とか。このような場合には,サンプルサイズよりも変数(測定値)の方が圧倒的に多い。たくさんの変数であっても,それらの間には相関関係があるの で,数個の主成分にまとめることができる。そして,数百個の変数の代わりに数個の主成分得点でサンプルを評価できると言うことでしょう。たとえば,A, B の二群(各4サンプルずつ)を2つの主成分軸(主成分得点)で図示したとき,A, B 群がよく分離されるかどうか(平均値に有意な差があるか)みたいなことです。いくつかの主成分で群分けがうまくできれば(平均値ベクトルに有意な差がある ならば),その主成分には(主成分分析には)意味があるということでしょう。
先行研究に従えば宜しいと思いますが,いかんせん,サンプルサイズが 4+4 ではどうしょうもない。今後サンプルを集めるのでしょうけど。

グ ループを分けるのにどの変数が有効なのかを見るのには,判別分析というのが宜しいでしょう。フィッシャーの線形判別分析,正準判別分析,二次の判別分析な どを検討するのが宜しいでしょう。これらは,グループ分けが有意というような言い方はしませんが,判別得点に有意な差があるような判別得点(判別軸)を求 めるという説明はできます。

また,クラスター分析というのもあり,K-means クラスター分析は,グループ間で有意な差ができるようにグループ化するということになるわけです。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る