No.10025 従属変数と独立変数の影響の度合いの比較  【DSKing】 2009/06/08(Mon) 14:52

独立変数Xがあり,従属変数Y1,Y2,Y3,Y4があります。
独立変数が従属変数にあたえる影響の大きさを判定するにはどうしたらよいでしょうか?

最初,回帰係数(Y=aX+bのa)の大きさで比較したところ,論文のReviewerに,
従属変数の単位が異なるので,それで影響の大きさを判定はできないと指摘されました。

どなたかご教授願います。

No.10027 Re: 従属変数と独立変数の影響の度合いの比較  【青木繁伸】 2009/06/08(Mon) 15:55

独立変数は1個で,従属変数が4個あり,単回帰分析を4回行ったと言うことですね。
標準化偏回帰係数を見ればよいのですが,独立変数が1個なら,単回帰分析を行うまでもなく,相関係数を比較するだけでよいです。
独 立変数が1個の場合,独立変数と従属変数の相関係数は標準化偏回帰係数と同じ値になります。また,重相関係数は,相関係数の絶対値を取ったものと同じ値に なります(決定係数は相関係数を2乗したものと同じ値になります)。なお,回帰による分散分析表のP値は,母相関係数が0かどうかの検定のP値とも,母偏 回帰係数が0かどうかの検定のP値とも,重相関係数が0であるかどうかの検定のPとも全く同じ値になります(つまり,これらの検定は皆同じことを検定して いることになります)。
蛇足ですが,相関係数は,単位が違っても比較できます(データを標準化して,共分散を求めると相関係数になるので)。

No.10028 Re: 従属変数と独立変数の影響の度合いの比較  【ひの】 2009/06/08(Mon) 18:40


「相関の強さ」と「影響の大きさ」は違うと思います。

Xが2倍大きくなったときに,Y1は0.1倍だけ大きくなり,Y2は3倍大きくなった,というような違いを明らかにしたいのではないかな。とすると相関の強さとは別の問題。

対数をとってから回帰して比較すれば単位の次元の違いは消えてしまうはずですが,今回の問題の解決になるのかどうかは私には判断がつかない。

No.10029 Re: 従属変数と独立変数の影響の度合いの比較  【青木繁伸】 2009/06/08(Mon) 21:26

> 「相関の強さ」と「影響の大きさ」は違うと思います。

確かに,それぞれの言葉の意味するところを明確にしてからでないと,議論はすれ違うと思います。
少 なくとも,上に述べたように,相関係数と標準化偏回帰係数が同じであるということ,標準化偏回帰係数は,独立変数が1単位(無名数)大きくなったとき,従 属変数が何単位大きくなるかを表すもの(つまり,影響の大きさを表すもの)ということ,さらにそれは,単位の影響を受けないものであるということだと思い ますけど。特に,単回帰の場合には,統計量の関係が単純なので。

> Xが2倍大きくなったときに,Y1は0.1倍だけ大きくなり,Y2は3倍大きくなった,というような違いを明らかにしたいのではないかな

そこがまさに「単位の影響を受ける」わけです。
Y1'=Y1*100  つまり,Y1はメートルで測られていたがそれをセンチで測ったとして単に100倍した Y1' の係数はどうなるか。そのような単位の影響を受けないためには,変数の正規化(標準化)して,単位の影響をなくした標準化偏回帰係数を考察対象にするのが よいでしょう。対数を取っても単位の影響は解消されますね。しかし,標準化偏回帰係数が単相関係数と等しいという関係はありますが,対数を取った変数の偏 回帰係数の意味づけはどうなりますか。少なくとも,元の変数のままなら線形回帰ですが,対数を取ると非線形回帰となり,当然ながら回帰モデルも異なります ね。
以下のようなシミュレーションしてみる
x <- rnorm(100,50)
y1 <- rnorm(100,50)
summary(lm(y1~x))
summary(lm(y1*100~x))
summary(lm(log(y1)~x))
summary(lm(log(y1*100)~x))

No.10030 Re: 従属変数と独立変数の影響の度合いの比較  【DSKing】 2009/06/09(Tue) 07:51

青木先生,ひの先生

まずは,早々にご丁寧にご返信頂き,心より感謝申し上げます。

>独立変数は1個で,従属変数が4個あり,単回帰分析を4回行ったと言うことですね。
おっしゃる通りです。単回帰分析をしています。

>「相関の強さ」と「影響の大きさ」は違うと思います。
まさに,その部分が問題で,相関度の強さではなく,”影響の大きさ”を比較したいと思っています。

>確かに,それぞれの言葉の意味するところを明確にしてからでないと,議論はすれ違うと思います。
医療関係の研究でして,体重(独立変数X)とある定量化指標(Y1とする)があり,
定量化指標は本来,被験者によらず,一定であるべき指標です。
しかし,体重(正確には体脂肪)による影響を受けていて,体重が大きくなるにつれて,定量化指標も大きくなってしまっています。
そこで,新たな定量化指標(Y2,Y3,Y4)を提案し,体重の影響を排除しようという研究をしています。
その新たな指標は,Y1とは単位が異なるものもあるし,スケールも異なるものもあります。

>変数の正規化(標準化)して,単位の影響をなくした標準化偏回帰係数を考察対象にするのがよいでしょう。
>対数を取っても単位の影響は解消されますね。
各指標ごとにすべて単回帰分析を行っていますので,標準化偏回帰係数は相関係数となってしまいますでしょうか。そうすると,相関係数の絶対値の大小で,影響の度合いが判定できると考えても支障がないでしょうか?
もしくは,対数をとるかですが,どちらがベストなのか,ご意見を頂ければ幸いです。

No.10031 Re: 従属変数と独立変数の影響の度合いの比較  【青木繁伸】 2009/06/09(Tue) 11:54

実際のデータではわかりませんが,以下のような多変量正規分布に従うテストデータでは偏回帰係数の比はほぼ同じです(変閾内ではほぼ直線関係が成り立つため)。
> set.seed(123)
> library(MASS)
> d <- mvrnorm(n=100, mu=rep(50, 3),
+ Sigma=matrix(c(1.0,0.2,0.6, 0.2,1.0,0.0, 0.6,0.0,1.0), 3),
+ empirical=TRUE)

> colMeans(d)
[1] 50 50 50 3変数(x, y1, y2) の平均は50
> sd(d)
[1] 1 1 1 標準偏差は1
> cor(d)
x y1 y2
x 1.0 2.000000e-01 6.000000e-01 相関係数
y1 0.2 1.000000e+00 -2.085524e-16 x:y1 = 0.2
y2 0.6 -2.085524e-16 1.000000e+00 x:y2 = 0.6
> summary(lm(d[,2]~d[,1]))
直線回帰 y = ax+b
この場合,偏回帰係数(Estimate) は標準化偏回帰係数とも,
相関係数とも等しい

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.00000 4.94970 8.081 1.7e-12 ***
d[, 1] 0.20000 0.09897 2.021 0.046 *

Multiple R-squared: 0.04, Adjusted R-squared: 0.0302
F-statistic: 4.083 on 1 and 98 DF, p-value: 0.04604

> summary(lm(d[,3]~d[,1]))

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 20.00000 4.04141 4.949 3.10e-06 ***
d[, 1] 0.60000 0.08081 7.425 4.19e-11 ***

Multiple R-squared: 0.36, Adjusted R-squared: 0.3535
F-statistic: 55.13 on 1 and 98 DF, p-value: 4.193e-11

y2とy1 の影響力の比 = 0.6/0.2 = 3

==================================
> summary(lm(log(d[,2])~d[,1]))
y=a*b^xというモデル
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.715893 0.098971 37.55 <2e-16 ***
d[, 1] 0.003919 0.001979 1.98 0.0505 .

Multiple R-squared: 0.03847, Adjusted R-squared: 0.02866
F-statistic: 3.921 on 1 and 98 DF, p-value: 0.0505

> summary(lm(log(d[,3])~d[,1]))

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.312531 0.080648 41.074 < 2e-16 ***
d[, 1] 0.011986 0.001613 7.432 4.04e-11 ***

Multiple R-squared: 0.3605, Adjusted R-squared: 0.354
F-statistic: 55.24 on 1 and 98 DF, p-value: 4.036e-11

y2とy1 の影響力の比 = 0.011986 / 0.003919 = 3.058433

==================================
> summary(lm(log(d[,2])~log(d[,1])))
y=a*x^bというモデル
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.14596 0.38682 8.133 1.32e-12 ***
log(d[, 1]) 0.19578 0.09888 1.980 0.0505 .

Multiple R-squared: 0.03846, Adjusted R-squared: 0.02865
F-statistic: 3.92 on 1 and 98 DF, p-value: 0.05052

> summary(lm(log(d[,3])~log(d[,1])))

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.57113 0.31535 4.982 2.71e-06 ***
log(d[, 1]) 0.59836 0.08061 7.423 4.24e-11 ***

Multiple R-squared: 0.3599, Adjusted R-squared: 0.3533
F-statistic: 55.09 on 1 and 98 DF, p-value: 4.236e-11

y2とy1 の影響力の比 = 0.59836/0.19578 = 3.056288

No.10033 Re: 従属変数と独立変数の影響の度合いの比較  【sb】 2009/06/09(Tue) 14:07

> そこで,新たな定量化指標(Y2,Y3,Y4)を提案し,体重の影響を排除しようという研究をしています。

体重の影響を排除(制御)する方法としては,Randomization,層別化,多変量解析等,いろいろありますが,DSKingさんの方法は,これらの方法と比較して,どの様な強みがあるのでしょうか。

No.10034 Re: 従属変数と独立変数の影響の度合いの比較  【青木繁伸】 2009/06/09(Tue) 14:28

> 体重(独立変数X)とある定量化指標(Y1とする)があり,
定量化指標は本来,被験者によらず,一定であるべき指標です

「被 検者によらず一定」ではなく正確に言えば「体重に影響されない」なのでしょう?でないと測定する意味ないですものね。でも「一定」というのはどういう点で 一定なのでしょうか。どんな人でも一定ということじゃないですよね。年齢により一定とか,性別により一定とか?病状により一定とか?年齢には比例するが体 重には比例しない指標と言うことでしょうかね?

得られたデータの分析をする上で体重の影響を排除しようとしているのではなく,体重と相関を持たない新しい指標を探索・策定しようとしているのでしょう。

「体重に影響されない」ものを選ぶなら,相関係数で選べばよいのでは?
無相関(あるいは相関係数がなるべく低いもの)だったらよいということでしょう?

No.10035 Re: 従属変数と独立変数の影響の度合いの比較  【sb】 2009/06/09(Tue) 19:27

> 得られたデータの分析をする上で体重の影響を排除しようとしているのではなく,体重と相関を持たない新しい指標を探索・策定しようとしているのでしょう。

なるほど,そう云う意味でしょうね。

研究の背景,目的を知らないまま発言すると,的外れなことになってしまいますね。自戒。

No.10036 Re: 従属変数と独立変数の影響の度合いの比較  【DSKing】 2009/06/10(Wed) 13:51

>得られたデータの分析をする上で体重の影響を排除しようとしているのではなく,
>体重と相関を持たない新しい指標を探索・策定しようとしているのでしょう。

その通りで,理想的には,体重との相関をもたない新たな指標を探索しています。
体重(体格)による影響を低減するだけでも,いいと思っています。

>「体重に影響されない」ものを選ぶなら,相関係数で選べばよいのでは?
>無相関(あるいは相関係数がなるべく低いもの)だったらよいということでしょう?

新たな指標によって,無相関になることがベストですが,無相関とはなっていません。
相関係数の大小で,もともとの指標と,提案する指標で優越をつけてよいのでしょうか?

No.10037 Re: 従属変数と独立変数の影響の度合いの比較  【青木繁伸】 2009/06/10(Wed) 17:13

> 相関係数の大小で,もともとの指標と,提案する指標で優劣をつけてよいのでしょうか?

悪いのでしょうか?
悪いのではないかと考える理由があるのでしょうか?

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る