「統計学関連なんでもあり」の過去ログ--- 041

No.05027　重回帰分析について質問です　　【氷雨】　2007/12/12(Wed) 16:11

初めまして。統計初心者ですが，卒論で困っています。
どうぞよろしくお願いします。
重回帰分析を行う際，最初は強制投入法で，そしてその次にステップワイズ法を行うようにと，統計の先生に教えていただきました。
その通りに行った際，ある項目では，強制投入法では有意にはならなかったのに，ステップワイズ法では有意な独立変数が抽出されました。
この場合，ステップワイズでは有意だったのだから，この独立変数で従属変数は説明できるとするのでしょうか。
それとも，強制投入法で有意ではなかったのだから，これらの独立変数では従属変数は説明できないとした方がいいのでしょうか。
なんでもかんでも有意になる必要はないので，正直なところ，強制投入法で有意じゃなかったんだから有意でないと言い切っていいのではないかな・・・と思っているのですが。
私のイメージの中では，分散分析で有意だったら下位検定を行うが，有意ではなかったらその後の検定はしない，というのと同じようなものかと思っているのですが，そういうことではないのでしょうか。
初歩的な質問で申し訳ないのですが，どうぞよろしくお願いします。

No.05029　Re: 重回帰分析について質問です　　【青木繁伸】　2007/12/12(Wed) 16:42

欠損値を含むデータなのではないでしょうか？
ステップワイズ法では，最初に指定された変数のどれか一つでも欠損値になっているデータは分析対象から外されます。
ステップワイズ法で選択された特定のモデルに含まれる変数を使って，（強制投入法）で分析すると，ステップワイズ法のときには分析対象から外されたデータが，分析対象にされることがありますよね。
そう言うことが起きると，要するに違うデータを使って分析することになるわけで，結果も違って当然です。
まずは，分析に使われたデータ数（ケース数）を確認してみることが先決でしょう。

どちらが正しいモデルであるとするかは，欠損値の割合や，欠損値であるからと除かれたデータの性質などなど，様々な原因を考慮した上で判断しなければならない，固有科学の問題でしょう。統計学が答えを出せるものではないと思います。

No.05031　Re: 重回帰分析について質問です　　【氷雨】　2007/12/12(Wed) 18:37

回答ありがとうございます。
確認しましたが，欠損値はありませんでした。
従属変数Aに対して，独立変数として『Z』の下位項目である1,2,3,4,5,6を投入し，強制投入をすると分散分析の有意確率の欄は有意ではなく，ステップワイズを行うと2,3が抽出され，有意になりました。
なので，1,2,3,4,5,6のうちの2,3がAに影響を与えると解釈するのか，
1,2,3,4,5,6を下位項目に持つ『Z』はAには影響を与えないと解釈するのかわからなかったのです。
どちらのモデルを採用すべきであるという決まりはないのですね。
ありがとうございました。

No.05033　Re: 重回帰分析について質問です　　【青木繁伸】　2007/12/12(Wed) 19:46

たとえば以下のような例ですね。
全ての独立変数を使ったら，薄められてしまう。それによって分散分析のF値の自由度が変わるのも原因。

> set.seed(123)
> r <- tri.mat(c(1, 0.35, 1, 0.38, 0.1, 1), 3)
> n <- 40
> x <- cbind(gendat(n, r), matrix(rnorm(n*4), n))
> colnames(x) <- c("y", paste("x", 1:6, sep=""))
> d <- data.frame(x)
> round(cor(d),3) # 以下のような相関係数行列

# x3～x6 はほとんど意味のない独立変数
        y     x1     x2     x3     x4     x5     x6
y   1.000  0.350  0.380 -0.230 -0.183 -0.038  0.338
x1  0.350  1.000  0.100 -0.072 -0.056 -0.143  0.239
x2  0.380  0.100  1.000 -0.159 -0.447  0.067  0.293
x3 -0.230 -0.072 -0.159  1.000  0.084  0.127 -0.238
x4 -0.183 -0.056 -0.447  0.084  1.000  0.038 -0.232
x5 -0.038 -0.143  0.067  0.127  0.038  1.000 -0.047
x6  0.338  0.239  0.293 -0.238 -0.232 -0.047  1.000

> summary(lm(y~., d)) # 独立変数全部を使うモデル

Call:
lm(formula = y ~ ., data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.99681 -0.46635 -0.04717  0.50006  2.07330 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) -0.029007   0.148403  -0.195   0.8462  
x1           0.275042   0.152961   1.798   0.0813 . # ちょっとは脈がある
x2           0.289292   0.170440   1.697   0.0990 . # ちょっとは脈がある
x3          -0.123379   0.148213  -0.832   0.4111   # 箸にも棒にもかからない
x4           0.009674   0.169001   0.057   0.9547   # 〃
x5           0.006226   0.165008   0.038   0.9701   # 〃
x6           0.168825   0.171410   0.985   0.3318   # 〃
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.9294 on 33 degrees of freedom
Multiple R-Squared: 0.2874,	Adjusted R-squared: 0.1579 
F-statistic: 2.219 on 6 and 33 DF,  p-value: 0.06589 # 分散分析は有意でない

> summary(lm(y~x1+x2, d)) # 見込みのある独立変数だけ使う

Call:
lm(formula = y ~ x1 + x2, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.91837 -0.50705 -0.05655  0.49692  2.18819 

Coefficients:
             Estimate Std. Error  t value Pr(>|t|)  
(Intercept) 1.968e-18  1.431e-01 1.38e-17   1.0000  
x1          3.152e-01  1.438e-01    2.192   0.0348 * # 有意になる
x2          3.485e-01  1.438e-01    2.424   0.0204 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.9048 on 37 degrees of freedom
Multiple R-Squared: 0.2427,	Adjusted R-squared: 0.2018 
F-statistic:  5.93 on 2 and 37 DF,  p-value: 0.005837 これも有意になる

けっきょく，どちらのモデルが意味があるかは，x1～x6 の内容，y との理論的関係の有無などなどを考慮する必要があるだろうということ。

No.05059　Re: 重回帰分析について質問です　　【氷雨】　2007/12/13(Thu) 18:13

お忙しい中，本当にありがとうございました。
どちらが意味があるかについての決まりは無く，私自身が考えて採用すればいいのですね。
本当にありがとうございました。