「統計学関連なんでもあり」の過去ログ--- 041

No.06386　説明変数の標準偏差と不均一分散との関係　　【eruza】　2008/04/21(Mon) 01:13

いつもお世話になっております。
多重回帰分析における説明変数の標準偏差と不均一分散との関係についてお伺いさせていただきたく思います。とある場所で聞いたのですが，説明変数の中に大きな標準偏差のものと小さな標準偏差のものが混ざっている場合で，不均一分散に対処するために大きな標準偏差の説明変数を除くという手法は正しいのでしょうか？
不均一分散を生じさせる要因がわかっている場合には，その変数で回帰式の両辺を割るという方法で推定すること（WLS）で対処するのは見たことがあります。その場合，基準化された各説明変数は，標準偏差が結果として小さくなることもわかります。
また，標準偏差が大きな説明変数については，標準偏差を小さくするために自然対数値を用いている例もありますが，なぜ，このように説明変数の標準偏差を小さくしようとする手順が分析において必要なのか，わかりません。
初歩的な質問で，大変お恥ずかしいのですが，お教えいただければ幸いです。

No.06387　Re: 説明変数の標準偏差と不均一分散との関係　　【青木繁伸】　2008/04/21(Mon) 15:40

> 説明変数の中に大きな標準偏差のものと小さな標準偏差のものが混ざっている場合で

本筋とは外れますが，説明変数の標準偏差の大小と不均一分散は無関係なのではないですか？
ある説明変数の標準偏差が大きいと判断し，その標準偏差を小さくしたいなら，データを何分の一かにしてやればよいだけです。データを一律に何分の一にしても，説明変数と非説明変数の本質的関係は変わらない（回帰係数は変わる）し，計算される予測値なども全く同じになる。
> y <- c(2, 4, 7, 10, 15) # 被説明変数
> x <- c(300, 500, 800, 1200, 2000) # 説明変数
> sd(x) # 説明変数の標準偏差は大きい
[1] 673.0527
> (ans <- lm(y~x)) # とりあえず回帰分析

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept)            x  # 切片と傾き
   0.331126     0.007572  

> predict(ans)
        1         2         3         4         5 # 予測値
 2.602649  4.116998  6.388521  9.417219 15.474614

> x2 <- x/100 # 説明変数のデータを 1/100 にする
> sd(x2) # 標準偏差の大きさも，元の 1/100 になる
[1] 6.730527
> (ans2 <- lm(y~x2)) # このデータで回帰分析を行う

Call:
lm(formula = y ~ x2)

Coefficients:
(Intercept)           x2  # 切片は不変，傾きは 100 倍になる
     0.3311       0.7572  

> predict(ans2)
        1         2         3         4         5 
 2.602649  4.116998  6.388521  9.417219 15.474614 # 予測値は不変
> 標準偏差が大きな説明変数については，標準偏差を小さくするために自然対数値を用いている

対数変換しているのは標準偏差を小さくするためじゃなくて，対数正規分布に従う変数を正規分布に従うように変数変換しているのではないでしょうか？
あるいは，直線回帰ではないモデル y = a*x^b とか y = a*b^x などのモデルを使うとき，両辺を対数変換して直線回帰モデルに持ち込もうという，古典的な解法を使っているのでは？

No.06388　Re: 説明変数の標準偏差と不均一分散との関係　　【kai】　2008/04/21(Mon) 16:00

回帰分析などで不均一分散という場合は，説明変数の値により目的変数のバラツキが異なる現象の事を指していると思います．このような場合，対数変換する事により，説明変数が変化してもバラツキが変化しないようにする場合があります．

No.06396　Re: 説明変数の標準偏差と不均一分散との関係　　【eruza】　2008/04/22(Tue) 01:11

青木先生，kai様

ご回答くださり，本当にありがとうございました。非常に勉強になりました。

＞青木先生
一つお伺いさせていただきたいのですが，説明変数（および被説明変数）は正規分布に従っている必要はあるのでしょうか？先日，先輩に聞いたところ，説明変数は正規分布に従っていなくてもよいとアドバイスいただいたのですが。

＞kai様
一つお伺いさせていただきたいのですが，「説明変数の値により目的変数のバラツキが異なる場合」とは，回帰式を推定した際の誤差項の分散と説明変数の一つに相関がある場合を意味しているのでしょうか？そのような場合，「対数変換することにより，説明変数が変化してもバラツキが変化しないようにする」とは，誤差項の分散と説明変数との関係が小さくなることを意味していらっしゃるのでしょうか？

初歩的な質問で申し訳ないのですが，ご教授いただければ幸いです。

No.06397　Re: 説明変数の標準偏差と不均一分散との関係　　【kai】　2008/04/22(Tue) 09:18

＞「説明変数の値により目的変数のバラツキが異なる場合」とは，回帰式を推定した際の誤差項の分散と説明変数の一つに相関がある場合を意味しているのでしょうか？

そのような場合もあるし，そうでない場合もあります．システマティックに変化している場合はモデル化することも可能な場合もあります．たとえば説明変数の値が大きくなるにつれて目的変数のバラツキが大きくなる場合などは，平均値は普通の回帰分析でモデル化し，バラツキ（分散）はCV値でモデル化をする場合があります（この方法が推奨されるような方法かどうかはわかりません）
また，対数線形分散モデルのようなものもあり，多変量データ解析でもデータがある程度あれば平均と分散を両方同時にモデル化出来るようです（この方法については理論を理解していないので自分では使用していません）．

＞そのような場合，「対数変換することにより，説明変数が変化してもバラツキが変化しないようにする」とは，誤差項の分散と説明変数との関係が小さくなることを意味していらっしゃるのでしょうか？

対数変換する事により誤差のバラツキが等分散になれば結果的にはそうなることになります．

別の項目に青木先生も書かれていますが，モデル化においては固有技術の観点から考えても納得出来るものにすべきであり，形だけの変換は意味がありません．解析前にモデルをある程度想定しておいた上で実際に解析を行い，想定通りのモデルができればOKですが，そうでなかった場合には，その差異の理由や，想定外のモデルが固有技術的に解釈可能かどうかを検討すべきでしょう．

No.06398　Re: 説明変数の標準偏差と不均一分散との関係　　【青木繁伸】　2008/04/22(Tue) 10:17

> 説明変数（および被説明変数）は正規分布に従っている必要はあるのでしょうか？先日，先輩に聞いたところ，説明変数は正規分布に従っていなくてもよいとアドバイスいただいたのですが。

説明変数も被説明変数も正規分布している必要はありません。前者はダミー変数なんかの場合，後者は二値変数などの場合（この場合はロジスティック回帰とかモデル選択の問題）。

要するに，データに応じた適切な分析法を選択すること。

No.06403　Re: 説明変数の標準偏差と不均一分散との関係　　【eruza】　2008/04/22(Tue) 15:13

青木先生，kai様，再度ご回答いただき，本当にありがとうございます。大変勉強になります。

>kai様
ご回答，ありがとうございます。対数変換することにより誤差項の分散が均一化しようとする場合には，はやり背景にある理論を考慮する必要があるとの理解で大丈夫でしょうか？それに関して，一つお伺いさせていただきたいのですが，例えば，不均一分散が観察されるような場合であっても，説明変数と目的変数との間の関係について理論的なバックグラウンドがない場合，Whiteの方法などにより，不均一分散頑健標準誤差を用いて偏回帰係数の有意さを判定するといった方法をとるべきでしょうか？それとも，理論的バックグラウンドがない状態でも，対数変換することにより，不均一分散が解消されるような場合には，対数変換をした方が良いのでしょうか？
何度も質問してしまって，申し訳ないのですが，ご教授いただければ幸いです。

>青木先生
ご回答くださり，ありがとうございます。説明変数，被説明変数ともに正規分布する必要はないとのことで，非常に勉強になりました。
先に頂いた青木先生のコメントの中で，対数正規分布に従う説明変数を正規分布に近づけるために対数変換するとの言及をされていらっしゃいますが，それでは，このような方法はなぜ必要なのでしょうか？背後にある理論的バックグラウンドに従うとのことでしょうか？
再度，質問してしまい申し訳ないのですが，ご教授いただければ幸いです。

No.06404　Re: 説明変数の標準偏差と不均一分散との関係　　【青木繁伸】　2008/04/22(Tue) 15:23

> 先に頂いた青木先生のコメントの中で，対数正規分布に従う説明変数を正規分布に近づけるために対数変換するとの言及をされていらっしゃいますが

というのは，No. 6387 の

>> 対数変換しているのは標準偏差を小さくするためじゃなくて，対数正規分布に従う変数を正規分布に従うように変数変換しているのではないでしょうか？

を指しているのですか？
これは，私がそう思っていっているのではなくて，No.6386 であなたが「標準偏差を小さくするために自然対数値を用いている例もありますが」と書いているので，そうなのじゃないかといっているだけです。
対数変換する必要性があるか無いか，どちらかといえば，必要ないでしょう。

No.06412　Re: 説明変数の標準偏差と不均一分散との関係　　【eruza】　2008/04/24(Thu) 02:19

>青木先生

ご回答いただきまして，ありがとうございます。先生のコメントの趣旨をきちんと理解せずに，失礼な質問をしてしまい，大変申し訳ない気持ちです。
色々，コメント等をありがとうございました。とても勉強になりました。

No.06413　Re: 説明変数の標準偏差と不均一分散との関係　　【kai】　2008/04/24(Thu) 08:37

＞不均一分散が観察されるような場合であっても，説明変数と目的変数との間の関係について理論的なバックグラウンドがない場合，Whiteの方法などにより，不均一分散頑健標準誤差を用いて偏回帰係数の有意さを判定するといった方法をとるべきでしょうか？それとも，理論的バックグラウンドがない状態でも，対数変換することにより，不均一分散が解消されるような場合には，対数変換をした方が良いのでしょうか？

基本的には理論的なバックグラウンドを元にモデルを構築していくのが常道だと思いますが，まずあてはまりがよいモデルを作成しそこから理論的なバックグラウンドを考えるというのもありだと思います．私は基本的にはこの繰り返しです．

No.06414　Re: 説明変数の標準偏差と不均一分散との関係　　【eruza】　2008/04/24(Thu) 14:19

>kai様

再度ご回答くださり，本当にありがとうございます。とても勉強になりました。また，色々考えて見たいと思います。