No.10669 線形回帰分析:多重共線性と主成分回帰について  【Regresser】 2009/08/20(Thu) 18:50

最小二乗法による線形回帰モデルのあてはめについて,説明変数間に多重共線性がある場合,回帰係数の信頼性や予測精度が低下すると習いました.これを防止する方法として,元の説明変数行列の主成分を説明変数としてあてはめを行う主成分回帰(PCR)等があるようです.

しかし,説明変数(説明変数行列)の線形変換は,回帰モデルのあてはめ値(fitted values),残差,新たなデータに関する予測値に影響を与えないはずです(数値的にも確認しましたし,簡単に証明も出来ました).

例えば,x1,x2,x3が元の説明変数であるときに,
x1' = 2.3 * x1 - 1.7 * x2
x2' = 1.4 * x1 + 0.9 * x2 + 3.4 * x3
x3' = 1.1 * x1 + 2.5 * x2 - 0.8 * x3
を新たな説明変数として用いたとしても,これらが1次独立である限り,あてはめ値,残差,予測値は元のままになります.

主成分も線形変換の1つなので,元の説明変数と同数の主成分を説明変数に用いる場合,全く同じあてはめ値,残差,予測値が得られます.

それでは,主成分回帰は何故,多重共線性による回帰係数の信頼性,予測精度の低下を防止する手段と言えるのでしょうか?

(主成分回帰では通常,元の説明変数より少数の主成分のみを説明変数に用い,それが狙いの1つでもあるようですが,これはデータの縮約であって,多重共線性の問題の防止とは言えないと思います.)

勘違いしている点もあるかもしれないので,コメントを頂ければ嬉しいです。

No.10671 Re: 線形回帰分析:多重共線性と主成分回帰について  【波音】 2009/08/21(Fri) 00:45

主成分分析は得られる主成分が分散を最大にするような分析法ですから,主成分それらの相関関係は0に近い(強い相関がない)ということになります。

多重共線性は説明変数間に強い相関があるような場合に生じるわけですから,主成分を説明変数に使えば(それらはほぼ無相関であろうから)多重共線性を回避できるという理屈でしょう。

「データの凝縮」ということに着目すると,たしかに多重共線性の回避ということについて納得いかないかもしれません。しかし,「合成変量(主成分)の相関関係を0である」という性質について着目すれば納得できることでしょう。

No.10745 Re: 線形回帰分析:多重共線性と主成分回帰について  【Regresser】 2009/08/31(Mon) 01:53

ご回答いただき,ありがとうございます。
お返事が遅くなってしまい,申し訳ありません。
暫く考えた結果,理解できました。
ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る