★ 重回帰分析による欠損値補完:最適モデルの選択(1) ★

1358. 重回帰分析による欠損値補完:最適モデルの選択(1) takako 2003/12/12 (金) 19:07
├1362. Re: 重回帰分析による欠損値補完:最適モデルの選択(1) 青木繁伸 2003/12/12 (金) 19:45
│└1365. Re^2: 重回帰分析による欠損値補完:最適モデルの選択(1) takako 2003/12/13 (土) 22:35
└1360.  重回帰分析による欠損値補完:最適モデルの選択(2) takako 2003/12/12 (金) 19:10
 └1361. Re: 重回帰分析による欠損値補完:最適モデルの選択(2) 青木繁伸 2003/12/12 (金) 19:27
  └1411. Re^2: 重回帰分析:(略)最適モデルの選択(2) takako 2003/12/16 (火) 11:42
   ├1415. Re^3: 重回帰分析:(略)最適モデルの選択(2) 青木繁伸 2003/12/16 (火) 12:37
   └1413. Re^2: 重回帰分析:(略)最適モデルの選択(2) takako 2003/12/16 (火) 11:54
    └1417. Re^3: 重回帰分析:(略)最適モデルの選択(2) 青木繁伸 2003/12/16 (火) 12:45


1358. 重回帰分析による欠損値補完:最適モデルの選択(1) takako  2003/12/12 (金) 19:07
はじめまして。失礼ですが,文字数節約のため,箇条書き,敬語省略させて頂きます。

SPSSを用いて,約200の変数を持つデータにクラスタ分析,因子分析を行いたい。
しかし,200の変数のうち過半数が1から10の欠損値を含むため,SPSSで統計処理自体が行えない(エラーが出る)。
そこで,従属変数に欠損値を含む変数,独立変数を欠損値を含まない変数群として,重回帰分析を行い欠損値補完を試みた。

<I 強制投入法を用いて重回帰分析>
結果,多くの独立変数が除外され10から20の変数が投入された。(この除外法についてはSPSS本社に問い合わせたところ,多重共線性を考慮して投入する変数を自動的に選択しているらしい)
それでも,投入される変数が多すぎるため (ほとんどのモデルで,調整済みR2乗値は0.9を超えたものの,有意確率が0.5以上だった),そこから他の変数投入法を行った。

<II 上記の結果投入された変数(以下,I-変数と記す)を用いて行う,変数減少法による解析>
SPSS本社HPにある総当り法スプリクトを改造して,IIを行うスプリクトを組んだ。
I-変数から一個の変数を除かないと警告(特異な〜行列を用いて〜)が出るため,I-変数から一個変数を除いたI’変数にて変数減少法。 別の一個を除いたI’’変数にて変数減少法。
といった流れのスプリクトである。

結 果として,一個の従属変数に対して,「モデル集計」として,R2乗,修正済みR2乗値。「分散分析」としてF値,有意確率。「係数」として標準化係数,変 数ごとのt,有意確率。また,一個の従属変数に対して数十個のモデルが求まった。このなかから最適に近いモデルを自動的に選択する部分を付け加えて欠損値 補完終了としたい。 以下のようにするつもりである。
1 修正済みR2乗値で,0.9以下の値のモデルは削除。(ただのR2乗より,修正済みの方が良さそうな感じ‥かと思い修正済みを基準とした)
2 分散分析の有意確率0.5以上のモデルを削除。
3 残ったモデルのうち,F値が最大のもの または,修正済みR2乗値が最大のもの,を欠損値補完モデルとする。

すみません;頑張ったのですが1000字を超えてしまいましたので以下,質問に続きます。

     [このページのトップへ]


1362. Re: 重回帰分析による欠損値補完:最適モデルの選択(1) 青木繁伸  2003/12/12 (金) 19:45
> 1 修正済みR2乗値で,0.9以下の値のモデルは削除。(ただのR2乗より,修正済みの方が良さそうな感じ‥かと思い修正済みを基準とした)

なんにせよ,修正済みの法がいいのは世の常(^_^;)

> 2 分散分析の有意確率0.5以上のモデルを削除。

「有意確率0.5以上」ですか?なぜ,そんな大きな値を(^_^;)
0.05 の間違いですか。

     [このページのトップへ]


1365. Re^2: 重回帰分析による欠損値補完:最適モデルの選択(1) takako  2003/12/13 (土) 22:35
お早くお返事頂きまして,有難うございました。

> > 2 分散分析の有意確率0.5以上のモデルを削除。

> 「有意確率0.5以上」ですか?なぜ,そんな大きな値を(^_^;)
> 0.05 の間違いですか。

あ,そうです。0.05の間違いでした; 申し訳ありません。

     [このページのトップへ]


1360.  重回帰分析による欠損値補完:最適モデルの選択(2) takako  2003/12/12 (金) 19:10

ここで,質問です。
・F値最大を選ぶべきか,修正済みR2乗値を選ぶべきか
・インターネット検索してみると,回帰分析の結果解釈にはtを用いて判断しているものが多いように思うが,F値による判断でよいのか。
・修正済みR2乗値と,R2乗値の値が大きく離れている(0.95と0.5とか)場合があるが問題ないのか。

長々と失礼致しました。的外れな質問内容かもしれませんが,お応え頂けると非常にありがたいです。よろしくお願いします。

     [このページのトップへ]


1361. Re: 重回帰分析による欠損値補完:最適モデルの選択(2) 青木繁伸  2003/12/12 (金) 19:27
> ・F値最大を選ぶべきか,修正済みR2乗値を選ぶべきか

別の方法をとってみてください。
「変数増加法」さらにいえば,「変数増減法」
変数減少法では,スタート時点で多重共線性がある時に(プログラムの作り方にもよりますが)分析が中止されることがあります。

つまり,いらないものから捨てていくのではなくて,重要な順に選んでいくということ。Fin,Fout(厳密には Pin, Pout が望ましい)を適切にセットすると,最終的に得られる独立変数は有意なもののみになるでしょう。

> ・インターネット検索してみると,回帰分析の結果解釈にはtを用いて判断しているものが多いように思うが,F値による判断でよいのか。

何の t または F でしょう?ここの独立変数の偏回帰係数の優位性検定ですか?自由度 df1,df2 の F 値は,df1=1, df2 の t 値の二乗と同じですから,適切に使う限り,t でも F でも同じです。
分散分析表の場合には F だけで,t はないですね?

> ・修正済みR2乗値と,R2乗値の値が大きく離れている(0.95と0.5とか)場合があるが問題ないのか。

どういう問題ですか?
それに,http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg5.html
を見ていただくとわかりますが,R2 と R2* って,n が十分大きくて p が小さいときにはそんなに大きな違いになるはずがないです。
おっしゃるような大きな違いがあるときには,欠損値などで除外された後の n と p をちゃんと確認しておきましょう。

なお,欠損値の補完法については,いろいろな意見があることはごしょうちでしょうね。

というか,変数の数が多いのはわかりましたが,ケース数はどれくらいなんでしょうか。ケース数が少なくて,変数の数が多くて,なのに欠損値が多いというのは,悲惨なデータセットです。

     [このページのトップへ]


1411. Re^2: 重回帰分析:(略)最適モデルの選択(2) takako  2003/12/16 (火) 11:42
お早くお返事下さいまして,有難うございます。
さらに,色々と知識不足だったことを実感致しました。
なお,タイトルが長すぎて見にくそうなので,ちょっと略しますね。

>>・独立変数選択方法について(変数減少法利用)
> 別の方法をとってみてください。
>「変数増加法」さらにいえば,「変数増減法」
そうでしたか・・。 何故「変数減少法」を選んだかと言いますと,SPSS(11.0J)の線形回帰分析で選択できる方法が,<強制投入,ステップワイズ,強制除去,変数減少,変数増加>でした。
これらを,前書込みでの方法で選択された独立変数(強制投入を行って除去されなかった変数)で,試し,一番それらしい結果を出力したものを選びました。
−−−−−−出力結果−−−−−−
●強制投入: R2乗値は高いが,有意確率も0.05以上を出力しがち
●ステップワイズ: 
 ・独立変数が一個しか選ばれない(↓SPSS出力の投入済み変数表示より抜粋)
  (基準: 投入する F の確率 <= .050, 除去する F の確率>= .100)。
 ・モデルが一個しか出力されない(つくられない)  

 ]属変数によっては,何の結果も得られない.
 (出力が,表題,投入済み変数表示のみになる。しかもそこには何も書かれてないゥ狽熨I択されなかったということ?Pin,Poutがまずい?)

●変数増加: ステップワイズと同状態

●変数減少: 複数の独立変数の組み合わせによる,複数のモデルが得られ,結果も有意確率0.05以下のモデルが存在,F値が大きいもの(10以上)もある・・・これは使えそうだ。
−−−−−−−−−−−−−−−−−

> つまり,いらないものから捨てていくのではなくて,重要な順に選んでいくということ。Fin,Fout(厳密には Pin, Pout が望ましい)を適切にセットすると,最終的に得られる独立変数は有意

CRITERIA=PIN(..05) POUT(..10) <シンタックスより抜粋で行っていました。(SPSSのデフォルトそのまま)
変数増加法がうまくいかない・・ということは,ここが悪い可能性があるということですね。
Pin,Poutの決定など,変数選択についての基礎知識調べず,SPSSの機能に頼ってしまったのがまずかったようです。
急いで勉強しなおします。
変数増減法が強力そうですね。何とか自分で組めないか,またはスプリクトかシンタックスが無いか調べてみます。

文字数オーバーです。 以下に続かせて頂きます。

     [このページのトップへ]


1415. Re^3: 重回帰分析:(略)最適モデルの選択(2) 青木繁伸  2003/12/16 (火) 12:37
> ●ステップワイズ: 
>  ・独立変数が一個しか選ばれない(↓SPSS出力の投入済み変数表示より抜粋)
>   (基準: 投入する F の確率 <= .050, 除去する F の確率>= .100)。
>  ・モデルが一個しか出力されない(つくられない)  
>
>  ]属変数によっては,何の結果も得られない.

それが現実というものです。
つまり,あなたが予測に役立つだろうと思っていた変数は,全部役立たずだったということです。

>  (出力が,表題,投入済み変数表示のみになる。しかもそこには何も書かれてないゥ狽熨I択されなかったということ?Pin,Poutがまずい?)
>

Pin, Pout は同じ数値にしておく方がよい。
そのようにしておけば,選ばれた独立変数の偏回帰係数がゼロであるかどうかの検定で,そこに示した P 値以下のものだけが選択される。

> ●変数増加: ステップワイズと同状態

SPSS は,変数増減法のことをステップワイズといっているのかな。
ステップワイズ変数選択というのは,前に示したページに書いてあるいくつかの方法を総称したもの。つまり,「段階的に」という意味しかないのだから。

> ●変数減少: 複数の独立変数の組み合わせによる,複数のモデルが得られ,結果も有意確率0.05以下のモデルが存在,F値が大きいもの(10以上)もある・・・これは使えそうだ。

F 値ってどの F 値ですか。ちゃんと区別して書き分けないと,読んでいる方はちっともわからなくて,もういいやという気になります。

> −−−−−−−−−−−−−−−−−
>
> > つまり,いらないものから捨てていくのではなくて,重要な順に選んでいくということ。Fin,Fout(厳密には Pin, Pout が望ま

> 変数増減法が強力そうですね。何とか自分で組めないか,またはスプリクトかシンタックスが無いか調べてみます。

前述の通り。

     [このページのトップへ]


1413. Re^2: 重回帰分析:(略)最適モデルの選択(2) takako  2003/12/16 (火) 11:54
続きです
> > ・インターネット検索してみると,回帰分析の結果解釈にはtを用いて判断しているものが多いように思うが,F値による判断でよいのか。
> 何の t または F でしょう?ここの独立変数の偏回帰係数の優位性検定ですか?

はい,それです。
R2乗値が良くても,係数のt値を見てみたら使えない,等の記述が結構目につきまして。F値で判断している記述よりも多かったように感じたのです。
自分としては,F値は大きければいい。R2乗値は1に近いほどいい。有意確率は0.05以下ならいい。 
といった非常にアバウトな知識で結果解釈を行うつもりだったためにt値の扱いに迷ってしまいました・・。
なお,SPSSの用語のヘルプでは,t値は以下のようになっています。
<従属変数と独立変数間には線型の関係がないという帰無仮説,または,要するに回帰係数は 0 に等しいという帰無仮説を検定するときに使用する統計量。有意確率が小さいとき (0.10 以下),係数は有意であるとみなされます。>
t値が0.1以下なら有意・・・ということですよね。とすると,今回採用するつもりだった減少法の結果もほとんど駄目になってしまいます;
ほとんどのモデルで偏回帰係数のt値が0.1以上または,-0.1以下になっていました。

>自由度 df1,df2 の F 値は,df1=1, df2 の t 値の二乗と同じですから,適切に使う限り,t でも F でも同じです。
> 分散分析表の場合には F だけで,t はないですね?
はい,Fだけです。
式的にみるとF値は,t値を限定した形の二乗をしたもの,ということですか。t値,F値の式を再度勉強してきます。
重回帰分析などの基本的な原理,Fの分布,帰無仮説などの断片的な用語を調べて,ある程度は分かったつもりになっていたのですが,まだまだでした;
せめて,お返事頂いた内容に「?」が出ないように出直してきます。

あと,お返事頂いた残りの内容については,また明日にでもお邪魔させて頂いてよろしいでしょうか。
毎度長文で申し訳ありません。

     [このページのトップへ]


1417. Re^3: 重回帰分析:(略)最適モデルの選択(2) 青木繁伸  2003/12/16 (火) 12:45
> なお,SPSSの用語のヘルプでは,t値は以下のようになっています。
> <従属変数と独立変数間には線型の関係がないという帰無仮説,または,要するに回帰係数は 0 に等しいという帰無仮説を検定するときに使用する統計量。有意確率が小さいとき (0.10 以下),係数は有意であるとみなされます。>

有意確率が小さいときとして 0.1 をあげてあるとは,SPSS も狂ったか。

いろいろ理由はあるかもしれないが,有意水準といえば 0.05 とか 0.01 が判断基準となるのが統計学の常識(慣習)。

> t値が0.1以下なら有意・・・ということですよね。

違います。
P 値が 0.1 ということですが,上述のことがありますから,P < 0.05 のときに有意ということです。

> とすると,今回採用するつもりだった減少法の結果もほとんど駄目になってしまいます;

先に書いたように,要するにそういうことです。
重回帰分析をする前に,従属変数と個々の独立変数一つずつとの単相関係数を見ましたか。相関の高いのはありましたか。どれくらいの相関係数の値でしたか?
また,さらにもっと前の段階で,独立変数や従属変数は間隔尺度以上ですか。直線的な相関関係にありそうですか。

> ほとんどのモデルで偏回帰係数のt値が0.1以上または,-0.1以下になっていました。

t 値が 0.1 というのは,悲劇的ですよ。
そんな変数が最終のモデルに残るようなら,解析の設定が悪い。

> 式的にみるとF値は,t値を限定した形の二乗をしたもの,ということですか。t値,F値の式を再度勉強してきます。

式を見る必要はありません。第一自由度が1のF 分布とt分布の関係をいっているだけで,統計プログラムパッケージはちゃんと計算していますから,ユーザはF だろうとtだろうと,それに基づいてちゃんと計算されているP値をちゃんと正確に解釈してください。

> あと,お返事頂いた残りの内容については,また明日にでもお邪魔させて頂いてよろしいでしょうか。

よく整理してからどうぞ。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 026 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る