「統計学関連なんでもあり」の過去ログ--- 040

No.03163　正規分布？　　【こうへい】　2007/04/10(Tue) 17:13

はじめて質問します。
－10から＋10の範囲において正規分布している変数において，絶対値をとって0から10の値としました。
これをYとして回帰分析する際，正規分布を仮定して回帰してよろしいのでしょうか？またダメな場合はどのようにすればよろしいでしょうか？
教えてください。よろしくお願いします。

No.03164　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 17:17

> 正規分布を仮定して回帰してよろしいのでしょうか

という前に，

>絶対値をとって0から10の値としました

なら，仮定も何も，既に正規分布ではないわけだし。
絶対値をとって回帰しなければならないという必然性も疑問だし。

No.03165　Re: 正規分布？　　【こうへい】　2007/04/10(Tue) 17:32

早速のお返事ありがとうございます。
説明を付け加えます。
このYはある測定誤差であり，先述の通り値がマイナスからプラスの範囲をとります。
そして測定誤差を様々な因子で説明したいと思っており，また標準化された回帰係数の符号からどのようにそれぞれの因子が効くのかを調べたいのですが，Yの値が±とると判断がつかないと思い絶対値を取りました。しかしおっしゃる通りもはや正規分布ではなくなってしまいます。よって何か解決策を模索しておりまして質問させていただきました。

No.03166　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 17:40

> Yの値が±とると判断がつかないと思い

たとえば誤差が -5 も 5 も同じとした方が判断が付かないでしょう。ある要因はプラスの誤差を産むのかマイナスの誤差を産むのかって，重要でしょう？

No.03167　Re: 正規分布？　　【こうへい】　2007/04/10(Tue) 17:53

たとえばある要因Aの回帰係数の符号がマイナスの場合，要因Aが大きくなればなるよど誤差（Y）は小さい値をとると考えられるのですが，小さいからといって0に近づくわけではなくマイナスの値を取ってしまうかなと…

>ある要因はプラスの誤差を産むのかマイナスの誤差を産むのかって，重要でしょう？
この場合どっちがどうかと分かるものなのでしょうか？
すいません，教えて下さい。

No.03168　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 18:52

たとえばの例として，誤差を産む原因が温度だとしませんか。
温度が高くても低くても誤差を産む。ちょうど良い温度の時が誤差が一番小さい。
以下のようなデータがあるとしましょう。
  温度 誤差
1   10   -6
2   15   -5
3   20   -4
4   25   -2
5   30   -1
6   35    0
7   40    3
8   45    7
9   50    9
誤差の絶対値を取ってプロットし，回帰直線を求めると以下のようになりますよ。
これが求める解でないだろうことは明らかですね。
誤差がマイナスになるときとプラスになるときに分けて，二本の回帰直線を求めると，その交点の温度の時にたぶん誤差が一番小さくなるとか？

No.03169　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 18:57

誤差の絶対値なんか取らずに，そのまま回帰直線を求めるのが普通では？
そしてこの場合なら，温度が低いとマイナスの誤差を産み，温度が上がると誤差はだんだん小さくなり，更にあがると今度はプラスの誤差に転化し，以後プラスの誤差がどんどん大きくなる。
誤差が0になる温度もすぐ分かる。

No.03171　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 19:03

一本の回帰直線でだめそうなら色々モデルを考える。
たとえば，二本の直線回帰。

No.03172　Re: 正規分布？　　【こうへい】　2007/04/10(Tue) 19:18

丁寧にありがとうございます。
もう一つ質問させてください。
この要因が多くなった場合（重回帰分析）は，標準化回帰係数の大小と有意確率からどの要因が効いていると判断できると思うのですが，その際，標準化回帰係数の符号からは考察できなくなるのでしょうか？
誤差を0にする複数の要因は分からないと思うのですが。

素人質問ですいません。よろしくお願いします。

No.03174　Re: 正規分布？　　【青木繁伸】　2007/04/10(Tue) 21:59

どの要因の寄与が大きいかは，標準化偏回帰係数（有意確率）の大小で判断できます。
標準化偏回帰係数の符号は，上の3169の図のように，誤差と要因の相関関係を表すわけです。

あなたの目的が，「誤差を最小にする条件を探索する」ことであるなら，誤差の絶対値を取ってそれを重回帰分析するのではだめです（3168参照）。
y=(x1-a)^2+(x2-b)^2 とか，y=|x1-c|+|x2-d| とか，極小値を持つようなモデルを考えて，極小値を与える点を求めることになるでしょう。

No.03175　Re: 正規分布？　　【韮澤】　2007/04/11(Wed) 11:54

テクニカルに言うと，測定誤差は，プラスかマイナスかどちらかの方向に偏るオフセット要因と，正規分布に代表される様なばらつき要因との二種類の合計であるはずです。
絶対値を取ってしまっては，オフセット要因が分析出来ません。
何を分析したいのかから考え直して，誤差のモデルを作る事を考えるべきではないかと思えます。

No.03196　Re: 正規分布？　　【こうへい】　2007/04/12(Thu) 13:14

皆様本当にありがとうございます。
確かにどのような分析をしたいか考えなければなりません。

そこで重回帰分析をモデル構築ではなく，誤差の要因分析として用いようと考えています。その際±でやる場合は正規分布ですが，オフセットを取り払った絶対誤差をYとし誤差そのものの要因分析をしようとした時はどういう分布を仮定すればよいのでしょうか？

No.03205　Re: 正規分布？　　【韮澤】　2007/04/13(Fri) 12:56

相変わらず，やりたい事を理解できていません。ご自身も，あいまいなのではないかと思われます。

「誤差」と言われているものが，事前に判明していて定量化できている何かの要因に依存して，関数で表されるものなのであれば，それ自身は，本来，分布する性質ではなく，関数によって，一義的に定まるもののはずです。
関数で表される結果に対して，実測点が異なっている部分が，一般的に言う誤差ですが，これは，本来，多数の未判明要因に依存する関数の結果です。ただし，未判明要因は，実験過程においては，制御していない(出来ない)ので，制御不能なばらつきを持ち，その結果，測定結果に，制御不能なランダムばらつきを与える為に，一般的には誤差は正規分布する，という関係になります。
誤差を分析する目的は，通常，未判明要因の中から，定量化できている要因が測定結果に影響しているかを調べ，その要因が測定結果に与える影響の関数が得られたら，影響を0にする様，測定系にフィードバックする，というのが普通です。それを調べようと言うからには，要因が結果に与える影響は，分布ではなく，関数ですから，重回帰分析などで測定結果への影響関数を調べるという問題のはず。それに対する誤差は，他の未判明要因の影響ですですから，その未判明要因群の影響が，どういう分布をするか，という話なら，一般的には，正規分布で近似するのでしょうが，そもそも，どんな分布であろうが，当面の目的とは関係ないことではないでしょうか?

また，なんとなく，実験計画法の要因分析の方が向いている様に思えます。タグチメソッドというのを調べてみて，目的にかなうか，考えてみるのをお勧めします。