No.04469 説明変数群の最適な変量の選択方法について  【NAITO】 2007/10/04(Thu) 16:11

今私は,以下のような二つの変数群の関連性について調べようとしています.

説明変数群:x1,x2,…,x13
従属変数群:y1,y2,y3

しかし,説明変数群の変量xは13個と数が多く,変量間で強い相関があるものも多く存在します..
そのため,説明変数群の13個の変量のうち,できるだけ他の変量と独立した少数の変量を取り出したいと考えています.この場合,どのような手法を用いるのがいいのでしょうか?

今は,これら説明変量群の変量のうち一つを従属変数に,残りの変量を説明変数として重回帰分析を行い,
最もVIFが高い項目を取り除くという作業を繰り返すことで,解決しようとしています.
ちなみに,VIFが高い5個の変量を取り除くと,VIFが全て10未満(一番高いのが8程度)になりました.

この手法で問題はないのでしょうか?
もしこれより最適な手法などありましたら,教えて頂けないでしょうか?

宣しくお願いします.

No.04471 Re: 説明変数群の最適な変量の選択方法について  【青木繁伸】 2007/10/04(Thu) 17:48

そのようなことをすることがよいのかわるいのか,判断に困りますが

主成分分析なり因子分析なりをして,各主成分(因子)から一つずつとれば,他とは関連の少ない変数が選べるのではないかと思いますが?

No.04475 Re: 説明変数群の最適な変量の選択方法について  【NAITO】 2007/10/04(Thu) 20:09

ご返事ありがとうございます。

私も最初は13個の変数を主成分分析にかけて,得られた主成分を使おうとも考えたのですが,その場合得られた主成分の意味づけが難しくなってくるので,他によい方法がないかといろいろ調べていました。

先に述べた方法だと,今あるいくつかの変数を削るだけで,残る変数の意味づけを考える必要がないのでいいかと思っていたのですが,こういう方法は使われないのでしょうか?

統計についてはかなり初心者なため,初歩的な質問になってしまい申し訳ありませんが,アドバイスなどして頂けると幸いです。

宜しくお願いします。

No.04476 Re: 説明変数群の最適な変量の選択方法について  【青木繁伸】 2007/10/04(Thu) 20:36

一つずつ増やすとか減らすというのは,本質的には多変量というものの性質を無視したやりかたです。たとえば重回帰分析の変数選択で,変数減少法(増加法)と変数減増法(増減法)と総当たり法では,得られる最適解が異なることが多いです。

> 得られた主成分の意味づけが難しくなってくるので

主成分の意味づけは不要だと思いますが?単に異なる主成分で優位の変数は相関が低いだろうというだけのことです。

変数の総数が13個ということですから,今回は「総当たり法」でやってみると良いかも知れませんよ。ただ,手動でやると大変。なんたって分析回数が 2^13-1 回になります(とはいっても,プログラム的にやればたかが 2^13-1 です。たいしたことはない)

分析法は何でやってますか?正準相関分析かな?
http://aoki2.si.gunma-u.ac.jp/R/All_possible_subset_selection.html
をちょっといじれば転用できそうにも思いますが。

No.04477 Re: 説明変数群の最適な変量の選択方法について  【NAITO】 2007/10/04(Thu) 22:00

いろいろとアドバイスして頂き,ありがとうございます。

分析については,青木先生がおっしゃるように正準相関分析を使用しています。
しかし,そのまま正準相関分析を適用してしまうと,以下のような問題がおきてしまいました。

・正準相関係数が非常に高い(第3正準相関係数でさえ0.8弱)。
・多重共線性がみられる(例:第1正準変量について,x1の正準負荷量と重み係数の符号が反転している 等)

これらの原因の一つとして,説明変数が多すぎること,または説明変数間の相関が強いことが挙げられるのではないかと考え,説明変数を削ることを考えました。


また,総当り法についての質問なのですが,総当り法でやった場合でどれが一番いい組み合わせかを判断する基準には,何を利用したらよいのでしょうか?

もし従属変数が一つだけの場合であれば,全組み合わせに対して重回帰分析を行い,決定係数や重回帰係数などで判断できると考えているのですが,今回のように従属変数が複数個存在する場合は,どのように判断すればいいのかがわかりません。

もし良い評価尺度などあれば,教えていただけないでしょうか?


宜しくお願いします。

No.04478 Re: 説明変数群の最適な変量の選択方法について  【青木繁伸】 2007/10/04(Thu) 22:58

> 正準相関係数が非常に高い(第3正準相関係数でさえ0.8弱)

これは問題になるんでしょうか?

> 正準負荷量と重み係数の符号が反転

重み係数ってなんですか?

> 総当り法でやった場合でどれが一番いい組み合わせかを判断する基準には,何を利用したらよいのでしょうか

片方の変数が1個の場合が重回帰分析なんですから,その拡張から言うと,第1正準相関係数でしょう。
し かし,前述のように第3正準相関係数でも0.8と高いということでしたら,第1正準相関係数が一定以上で,ただし第1と第2の割合がどうのこうのというよ うな複数の条件設定をするということになるでしょう。あるいはさらに「正準負荷量と重み係数の符号の反転がない」というのも加える。要するに機械的に選別 するわけです。

一番良いのは全部の結果を目で見る(^_^;)

No.04479 Re: 説明変数群の最適な変量の選択方法について  【NAITO】 2007/10/05(Fri) 00:05

正準相関係数が高くなってしまうのは,特に問題はないのでしょうか?
WEB上で正準相関分析の例などを見ていると,大抵第二正準相関係数以降は0.5程度の値になっているので,高すぎるのは何か問題があると思ったのですが。

また,ここで言っている重み係数というのは,重回帰分析でいう回帰係数のことです。正準相関分析で得られる,回帰係数に相当するものにも,正式な名称がついているのでしょうか?(私が調べた範囲では,正式な名称はついてなく,重み係数などと書かれていました)

と ころで,総当りの条件設定として書いてある「第1と第2の割合」というのは,第1正準相関係数に対する第2正準相関係数の割合ということでしょうか?今ま で正準相関分析について調べた範囲では,このような値はありませんでしたが,この割合からどのようなことがわかるのでしょうか?

質問ばかりで申し訳ありませんが,宜しくお願いします。

No.04481 Re: 説明変数群の最適な変量の選択方法について  【青木繁伸】 2007/10/05(Fri) 09:19

> 重回帰分析でいう回帰係数のことです

「正準負荷量」という方の呼び方もわからなかったのです。聞き慣れない名前だと思いました。
標準化されているかいないかの違いですか?
正準得点係数と標準化正準得点係数?

> x1の正準負荷量と重み係数の符号が反転

もし,用語について私の解釈が正しいとすれば,両者の符号が反転するなどと言うことはあり得ないと思うのです。

> 今まで正準相関分析について調べた範囲では,このような値はありませんでしたが,この割合からどのようなことがわかるのでしょうか?

そのようなものは一般的に定義されているわけではありません。それが一般に受け入れられるかどうか分かりません。
でも,あなたのやりたいことをするためにはそのような統計量が必要なんではないですか?

No.04484 Re: 説明変数群の最適な変量の選択方法について  【NAITO】 2007/10/05(Fri) 13:22

正準負荷量というのは,正準変量とそれを構成する元の変量との相関係数です。
(以下のURLに記載されてますので,宜しければ参考にしてください)

http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node83.html

「x1の正準負荷量と重み係数の符号が反転」というのは,例えば正準変量yと,それを構成する元の変量の一つをx1としたときに,「x1とyの相関係数は正なのに,yに対するx1の係数が負になっている」などの場合です。


いろいろとアドバイスして頂き,本当にありがとうございます。
一度,総当り法でいろいろと調べてみたいと思います。

分析方法などでつまづいてしまった場合にまた質問させて頂くかもしれませんが,もし宜しければアドバイスなど頂けると幸いです。

No.04485 Re: 説明変数群の最適な変量の選択方法について  【青木繁伸】 2007/10/05(Fri) 13:58

> 以下のURLに記載されてますので,宜しければ参考にしてください

田中豊,垂水共之「Windows版統計解析ハンドブック 多変量解析」共立出版株式会社
をWebページにしたものですね。
この本は持っていますが,そのような定義をしていたというのは,今確認するまで知らなかった。
ググってもほとんど出てこない。

> 正準変量yと,それを構成する元の変量の一つをx1としたときに,「x1とyの相関係数は正なのに,yに対するx1の係数が負になっている」

そうですよね。言葉を省略すると訳がわからなくなります。

ところで,そのような場合を一様に「多重共線性」と呼ぶのは正しくないということもあるようですが?

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る