★ rmsによる分布を得る解析方法 ★

5110. rmsによる分布を得る解析方法 学徒 2004/11/30 (火) 03:26
└5111. Re: rmsによる分布を得る解析方法 青木繁伸 2004/11/30 (火) 11:26
 └5115. Re^2: rmsによる分布を得る解析方法 学徒 2004/11/30 (火) 20:46
  └5116. Re^3: rmsによる分布を得る解析方法 にゃんちゅう 2004/11/30 (火) 21:32
   └5117. Re: 相関係数の検定につて 青木繁伸 2004/12/01 (水) 00:54
    └5125. Re^2: 相関係数の検定につて 学徒 2004/12/01 (水) 21:38
     └5126. Re^3: 相関係数の検定につて 青木繁伸 2004/12/01 (水) 21:49
      └5130. Re^4: 相関係数の検定につて 学徒 2004/12/03 (金) 00:23


5110. rmsによる分布を得る解析方法 学徒  2004/11/30 (火) 03:26
はじめまして。
多変量解析を勉強している学生です。
サンプル数10000,各サンプルが1000個の要素を持っている集団があります。それら要素の単位は全て距離(m)です。
つまり,r(i,j);i=1,10000;j=1,1000です。
こ の集団の,サンプル同士のrms(根平均二乗)が小さいものが近くに配置されるような分布を得たいと考えました。そこで主成分分析を行い,固有値上位3軸 に各サンプルを投影した3次元空間を作ってみたのですが,近くに配置されたサンプル同士のrmsが大きくなってしまいます。この場合,主成分分析は適切で ないのでしょうか? また,rmsによる適切な分布を得られる良い多変量解析法は他にないでしょうか?
よろしく御指導お願いします。

     [このページのトップへ]


5111. Re: rmsによる分布を得る解析方法 青木繁伸  2004/11/30 (火) 11:26
相関のあるデータの場合,個体間の距離をユークリッド距離で表すのは適切かどうか考えてみてください。サンプル同士の rms というのは実際にどう計算されるのかわかりませんが。

主成分分析で近くにあるものが rms が大きいというのもよくわからないものの,不思議な結果ですね。

代替法としては,数量化IV類や主座標分析,あるいはちょっと例数的に難しいかもしれないがクラスター分析(k-means法なら大丈夫かな)。

     [このページのトップへ]


5115. Re^2: rmsによる分布を得る解析方法 学徒  2004/11/30 (火) 20:46
早速のご返事ありがとうございます。
申し送れましたが,10000個のサンプルはそれぞれ30個の頂点を持った図形であり,要素は各サンプル内の全ての頂点の総当りの距離(30*29=870)です。二つのサンプルを比較するとき,サンプルAとサンプルBのrmsは次のように計算しました。 
  rms=√[Σ(r(A,j)-r(B,j))^2/870] ; j=1,2,3 ... 870です。
つまりrmsはサンプルAとサンプルBの距離の平均と考えることができます。rmsが小さければ似ている図形ということになると考えています。主成分分析ではやはり大事な情報が損失しているという事でしょうかね?教えていただいた他の解析方法も勉強してみたいと思います。

     [このページのトップへ]


5116. Re^3: rmsによる分布を得る解析方法 にゃんちゅう  2004/11/30 (火) 21:32

>   rms=√[Σ(r(A,j)-r(B,j))^2/870] ; j=1,2,3 ... 870です。

>ます。主成分分析ではやはり大事な情報が損失しているという事でしょうかね?教えていただいた他の解析方法も勉強してみたいと思います。

主成分分析は相関行列または共分散行列を分析するもので距離行列を分析するものではありません.距離の場合はMDSやalscal の多次元尺度法を使います.青木さんの指摘している方法でもいいです.

     [このページのトップへ]


5117. Re: 相関係数の検定につて 青木繁伸  2004/12/01 (水) 00:54
サンプル間の距離行列を主成分分析したのではなくて,サンプルの特性としてサンプルの頂点の全ての組み合わせの距離を測定データとしているように読みとりましたが。
たとえば,直方体みたいなものが100個あって,それぞれの直方体の頂点間の距離は全部で 8C2=28あるので100行28列のデータ行列なんでしょうね。しかし,全ての距離は全部独立ではないのでその点もちょっと問題ではあるでしょう。
で,とにかく28×28の分散・共分散行列か相関係数行列を主成分分析して,100個の直方体の主成分得点を3組求めてその三次元空間内に配置される直方体同士でrmsを計算したと言うことではないでしょうか。

いきなり10000行870列のデータ行列を相手にするのではなくて,もう少し少ないテストデータ(上の直方体みたいなものでも複雑すぎる感じ。平面図形で5角形位を相手にして,テストデータを色々作り,rmsで類似性がはかれるかどうか見てみるのもいいのでは?)

     [このページのトップへ]


5125. Re^2: 相関係数の検定につて 学徒  2004/12/01 (水) 21:38
10000サンプルを3000に減らし,そのrmsを計算して距離行列を作成しました(3000*3000)。これを主座標分析 にかけ(固有値分解),固有値の上位3成分の固有ベクトルを用いて3次元分布を出したのですが,なぜか主成分分析で得られた3次元分布とほぼ類似していま した。やはり青木さんの言うようにサンプル内の距離の数を間引きして(30頂点*30頂点を5頂点*5頂点くらいの距離に厳選して),試行錯誤してみたい と思います。
ps,私も練習として日本の各都市の緯度,経度データを用いて主座標分析を行いました。得られた2次元分布はほぼ日本列島の形に一致 していましたが,なぜか逆さまでした(北海道が左下で,沖縄が右上)。最近始めた"R"で行ったのですが,プログラムが間違っているのでしょうか?

     [このページのトップへ]


5126. Re^3: 相関係数の検定につて 青木繁伸  2004/12/01 (水) 21:49
固有ベクトルの符号は任意に決められます(たとえば,同じ R であっても,バージョンによって違ったりします)ですので,ある解の単位で符号を反転させる必要がある(反転させた方が解釈しやすい)ということはあります。
プログラムが間違っているわけではありません。

     [このページのトップへ]


5130. Re^4: 相関係数の検定につて 学徒  2004/12/03 (金) 00:23
なるほど。良くわかりました。
いろいろありがとうございました。
また分からないことがあったらよろしくお願いします。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 031 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る