No.12933 主成分回帰分析による予測  【のりぶ】 2010/06/26(Sat) 23:32

或るデータでロジスティック回帰を用いた判別分析を試行したのですが,
予測性能が非常に悪い結果となりました。
(データの半分でモデルを作成,残りの半分で予測(predict.glm)しました。
データの分け方自体はまずくないと考えて下さい。)

説明変数間に相関の高いものがあることが判り,主成分回帰分析(Principal Components Regression) を行おうと考えています。

この場合の手順は下記のように考えています。
(1)データを半分(D1とD2)に分け,データD1の説明変数の主成分を求める。
D1.pc <- prcomp(D1,scale = TRUE)
(2)求めた主成分得点を新たな説明変数とし,データD1の目的変数O_D1でglmを用いてロジスティック回帰分析を実施。
D1.glm <- glm(O_D1 ~, D1.pc, data=D1, family=binomial)
(3)データD2に対して予測。
D2.glm.predict <- predict(D1.glm, new=D2.pc, type="response")

Q1.(3)のpredict.glmの第二引数は,データD2の主成分得点で良いと考えていますが,問題無いでしょうか。

Q2.predict.prcompで主成分得点が得られるようですが,例えば,
D2.pc.predict = predict(D1.pc, D2)
とした場合,左辺はデータD1の主成分分析で得られた主成分負荷量とデータD2の積和を算出しているという理解で宜しいでしょうか。

Q3. PCRに関して本掲示板の過去ログを検索しました。
No.02551で「主成分への回帰」(朝野煕彦)を引用されていますが,これが掲載されていたBasic数学は入手できそうになく,他に参考となる文献(特にRでPCRを使った例など)は有りますでしょうか。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る