★ 主成分分析の初歩的な質問です。教えてください。 ★

 183 主成分分析の初歩的な質問です。教えてください。  匿名  2002/06/05 (水) 19:50
  186 Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:12
  185 Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:09
   193 Re^2: 主成分分析の初歩的な質問です。教えてください。  匿名  2002/06/06 (木) 13:05
    196 Re^3: 主成分分析の初歩的な質問です。教えてください。  青木繁伸  2002/06/06 (木) 17:19
    194 Re^3: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/06 (木) 15:54
  184 Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:08


183. 主成分分析の初歩的な質問です。教えてください。  匿名  2002/06/05 (水) 19:50
すごく,初歩的なことかも知れないのですが,助けてください。
「データがあって,それらの距離が最小になる線が引けました」っていうのが「主成分」の正体なのですか?
主成分分析で,主成分は何故データの重心を通るのですか?
各点からの距離が最小になるような直線は重心を通るという,裏づけが知りたいです。
あと,主成分の分散が最大になるように解く時の,
「係数の二乗和が1になる条件」とは何ですか?どこから出てきたのでしょう?
それから,最初に変量同士の相関を調べるのは,何のためですか?
考えれば考えるほど分からなくなってしまい,引っかかっています。教えてください。お願いします。

     [このページのトップへ]


186. Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:12
> 「データがあって,それらの距離が最小になる線が引けました」っていうのが「主成分」の正体なのですか?

ま,そういうことでもあります。

> 主成分分析で,主成分は何故データの重心を通るのですか?
> 各点からの距離が最小になるような直線は重心を通るという,裏づけが知りたいです。

二変数(二次元平面)を考えてみましょう。図を描きながら読んでください。

主成分がある点 A を通るとします。
ある一つのデータ点 B ,B から主成分を表す直線へ下ろした垂線の足 C を考えます。
A,B,C は直角三角形を作りますね。そしてピタゴラスの定理から AB^2=BC^2+AC^2 です。
全部のデータ点について同じようになるので,その総和を考えましょう。Σをつけるだけです。
Σ BC^2 を小さくするというのと Σ AC^2 を大きくするというのが同じであることが分かるでしょう。
前者が,「データがあって,それらの距離が最小になる線が引けました」ということです。
後者が,主成分の分散が最大になるということに対応しています。
さて,Σ AB^2 ですがこれはどういうときに最小になるか。
それはA が(二変数の平均値)のときです。
A が決まっても,上に述べたことは成り立ちます。

     [このページのトップへ]


185. Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:09
> それから,最初に変量同士の相関を調べるのは,何のためですか?

「相関を調べる」ということの意味が分からない。相関係数を計算するのは,それを分析のスタートにするからです。
「なぜ相関係数を求めるのか」ということなら,単位の異なる変数や,平均値も分散も異なる変数を一緒にして分析するときに,変数相互間の評価ができないからということです。単位が同じ変数なら,分散・共分散行列から分析を開始できます。

     [このページのトップへ]


193. Re^2: 主成分分析の初歩的な質問です。教えてください。  匿名  2002/06/06 (木) 13:05
> 「なぜ相関係数を求めるのか」ということなら,単位の異なる変数や,平均値も分散も異なる変数を一緒にして分析するときに,変数相互間の評価ができないからということです。単位が同じ変数なら,分散・共分散行列から分析を開始できます。

ありがとうございます。
そうでした「相関係数を求めるのか?」です。
これは相関行列Rの固有値λが主成分の分散に等しいから,という理由でも良いんですか?
さらに固有値λを求めるのはなぜですか?それにより主成分が求まるのですか?
そして「主成分が求まることにより,主成分と元の変数との相関係数である因子負荷量が求まる」と考えて良いのですか?
本によっては因子負荷量から固有値を求めているものもありますが,
順番(手順)がわかりません。どっちが先なのでしょう。
そしてそれぞれの手順の意味をはっきりと知りたいのです。
で,標準化したものでしたら,相関行列は求めなくても良い,ということなのですね?
とにかく固有値を求めるために,相関行列か分散・共分散行列のどちらかを求めればよいのですか?
教えてくださいよろしくお願いします。

     [このページのトップへ]


196. Re^3: 主成分分析の初歩的な質問です。教えてください。  青木繁伸  2002/06/06 (木) 17:19
多変量解析における合成変数の考え方と,それが主成分分析ではどのような関係になっているかを示す文書をアップしました。pdf ファイルです。

http://aoki2.si.gunma-u.ac.jp/lecture/PCA/index.html の,
7.主成分分析と合成変数
http://aoki2.si.gunma-u.ac.jp/lecture/PCA/pca.pdf
です。

     [このページのトップへ]


194. Re^3: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/06 (木) 15:54
> これは相関行列Rの固有値λが主成分の分散に等しいから,という理由でも良いんですか?

それはなんかへん!
分散・共分散行列からスタートしても,その固有値λは主成分の分散に等しい。

> さらに固有値λを求めるのはなぜですか?それにより主成分が求まるのですか?
> そして「主成分が求まることにより,主成分と元の変数との相関係数である因子負荷量が求まる」と考えて良いのですか?

固有値と固有ベクトルがセットになっていて,固有値は主成分の分散に,「(固有値の平方根)×(固有ベクトル)」が因子負荷量になる。

> 本によっては因子負荷量から固有値を求めているものもありますが,
> 順番(手順)がわかりません。どっちが先なのでしょう。

固有値・固有ベクトルが先(というか,相関係数行列または分散・共分散行列の固有値と有ベクトルを求めるのが最初で,それからいろいろなものを導く)。

> で,標準化したものでしたら,相関行列は求めなくても良い,ということなのですね?

そりゃそうですが。データをわざわざ標準化する必要ないでしょ?

> とにかく固有値を求めるために,相関行列か分散・共分散行列のどちらかを求めればよいのですか?

Yes

     [このページのトップへ]


184. Re: 主成分分析の初歩的な質問です。教えてください。  名無しさん  2002/06/05 (水) 21:08
> あと,主成分の分散が最大になるように解く時の,
> 「係数の二乗和が1になる条件」とは何ですか?どこから出てきたのでしょう?

どこからも出てきません。
何か制約条件をつけないと一つに決まらないからというだけです。
(全ての係数を同じ倍数を掛けても,それを使ってできる主成分は同じでしょ?)

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 019 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る