No.05029 Re: 重回帰分析について質問です 【青木繁伸】 2007/12/12(Wed) 16:42
欠損値を含むデータなのではないでしょうか?
ステップワイズ法では,最初に指定された変数のどれか一つでも欠損値になっているデータは分析対象から外されます。
ステップワイズ法で選択された特定のモデルに含まれる変数を使って,(強制投入法)で分析すると,ステップワイズ法のときには分析対象から外されたデータが,分析対象にされることがありますよね。
そう言うことが起きると,要するに違うデータを使って分析することになるわけで,結果も違って当然です。
まずは,分析に使われたデータ数(ケース数)を確認してみることが先決でしょう。
どちらが正しいモデルであるとするかは,欠損値の割合や,欠損値であるからと除かれたデータの性質などなど,様々な原因を考慮した上で判断しなければならない,固有科学の問題でしょう。統計学が答えを出せるものではないと思います。
No.05031 Re: 重回帰分析について質問です 【氷雨】 2007/12/12(Wed) 18:37
回答ありがとうございます。
確認しましたが,欠損値はありませんでした。
従属変数Aに対して,独立変数として『Z』の下位項目である1,2,3,4,5,6を投入し,強制投入をすると分散分析の有意確率の欄は有意ではなく,ステップワイズを行うと2,3が抽出され,有意になりました。
なので,1,2,3,4,5,6のうちの2,3がAに影響を与えると解釈するのか,
1,2,3,4,5,6を下位項目に持つ『Z』はAには影響を与えないと解釈するのかわからなかったのです。
どちらのモデルを採用すべきであるという決まりはないのですね。
ありがとうございました。
No.05033 Re: 重回帰分析について質問です 【青木繁伸】 2007/12/12(Wed) 19:46
たとえば以下のような例ですね。
全ての独立変数を使ったら,薄められてしまう。それによって分散分析のF値の自由度が変わるのも原因。> set.seed(123)けっきょく,どちらのモデルが意味があるかは,x1〜x6 の内容,y との理論的関係の有無などなどを考慮する必要があるだろうということ。
> r <- tri.mat(c(1, 0.35, 1, 0.38, 0.1, 1), 3)
> n <- 40
> x <- cbind(gendat(n, r), matrix(rnorm(n*4), n))
> colnames(x) <- c("y", paste("x", 1:6, sep=""))
> d <- data.frame(x)
> round(cor(d),3) # 以下のような相関係数行列
# x3〜x6 はほとんど意味のない独立変数
y x1 x2 x3 x4 x5 x6
y 1.000 0.350 0.380 -0.230 -0.183 -0.038 0.338
x1 0.350 1.000 0.100 -0.072 -0.056 -0.143 0.239
x2 0.380 0.100 1.000 -0.159 -0.447 0.067 0.293
x3 -0.230 -0.072 -0.159 1.000 0.084 0.127 -0.238
x4 -0.183 -0.056 -0.447 0.084 1.000 0.038 -0.232
x5 -0.038 -0.143 0.067 0.127 0.038 1.000 -0.047
x6 0.338 0.239 0.293 -0.238 -0.232 -0.047 1.000
> summary(lm(y~., d)) # 独立変数全部を使うモデル
Call:
lm(formula = y ~ ., data = d)
Residuals:
Min 1Q Median 3Q Max
-1.99681 -0.46635 -0.04717 0.50006 2.07330
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.029007 0.148403 -0.195 0.8462
x1 0.275042 0.152961 1.798 0.0813 . # ちょっとは脈がある
x2 0.289292 0.170440 1.697 0.0990 . # ちょっとは脈がある
x3 -0.123379 0.148213 -0.832 0.4111 # 箸にも棒にもかからない
x4 0.009674 0.169001 0.057 0.9547 # 〃
x5 0.006226 0.165008 0.038 0.9701 # 〃
x6 0.168825 0.171410 0.985 0.3318 # 〃
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9294 on 33 degrees of freedom
Multiple R-Squared: 0.2874, Adjusted R-squared: 0.1579
F-statistic: 2.219 on 6 and 33 DF, p-value: 0.06589 # 分散分析は有意でない
> summary(lm(y~x1+x2, d)) # 見込みのある独立変数だけ使う
Call:
lm(formula = y ~ x1 + x2, data = d)
Residuals:
Min 1Q Median 3Q Max
-1.91837 -0.50705 -0.05655 0.49692 2.18819
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.968e-18 1.431e-01 1.38e-17 1.0000
x1 3.152e-01 1.438e-01 2.192 0.0348 * # 有意になる
x2 3.485e-01 1.438e-01 2.424 0.0204 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9048 on 37 degrees of freedom
Multiple R-Squared: 0.2427, Adjusted R-squared: 0.2018
F-statistic: 5.93 on 2 and 37 DF, p-value: 0.005837 これも有意になる
No.05059 Re: 重回帰分析について質問です 【氷雨】 2007/12/13(Thu) 18:13
お忙しい中,本当にありがとうございました。
どちらが意味があるかについての決まりは無く,私自身が考えて採用すればいいのですね。
本当にありがとうございました。
● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る