★ X とlog(Y)が相関のある2次元正規分布をするデータの処理 ★

1652. X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente 2004/01/08 (木) 13:47
├1696. Re: X とlog(Y)が相関のある2次元正規分布をするデータの処理 韮澤 2004/01/09 (金) 12:34
│└1697. Re^2: X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente 2004/01/09 (金) 14:28
├1659. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの 2004/01/08 (木) 15:00
│└1660. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの 2004/01/08 (木) 15:04
│ └1664. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente 2004/01/08 (木) 16:47
│  ├1691. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの 2004/01/09 (金) 09:15
│  │└1692. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente 2004/01/09 (金) 09:43
│  │ └1693. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの 2004/01/09 (金) 10:41
│  │  └1694. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente 2004/01/09 (金) 11:09
│  │   └1698. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの 2004/01/09 (金) 14:45
│  ├1666. Re^3:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸 2004/01/08 (木) 18:11
│  └1665. Re^3:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸 2004/01/08 (木) 18:05
│   ├1668. Re^4:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸 2004/01/08 (木) 18:58
│   │└1695. Re^5:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente 2004/01/09 (金) 11:33
│   └1667. Re^4:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente 2004/01/08 (木) 18:27
└1653. Re: X とlog(Y)が相関のある2次元正規分布をするデータの処理 青木繁伸 2004/01/08 (木) 13:51
 └1663. Re^2: X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente 2004/01/08 (木) 16:37


1652. X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente  2004/01/08 (木) 13:47
X とlog(Y)が相関のある2次元正規分布をするデータの処理について悩んでいます。初歩的な質問かもしれませんがよろしくお願いします。

目的としてはY=f(X)という関係を手に入れたいのですが,これまで行われていた単にEXCELで 指数近似(Y=b*e^(a*X))を行う手法では,最小二乗法を用いているため(?)傾きが下にずれてしまい,しかもYが対数正規分布しているため,Xが大きな値をもつ域で近似式によるYの予測値が非常に低くでてしまっています。

Yの値はその算術平均が重要視されるパラメーターのため,このままでは問題があると考えています。(実際,Yのこの近似式での予測値の平均は実測のYの平均と比べて非常に低い値となっています。)

そこで指数近似を使わずにReduced Major Axis RegressionをXとlog(Y)に対して行いました。 結果はかなり良くはなりましたが依然Yの予測値の平均は低めとなっています。

これは対数変換したYに対してRMAを行ったためではないかと考えているのですがこの差は補正可能でしょうか? (もしくは全く別のより適した手法が存在するのでしょうか?)

どうかご教授よろしくお願いします。

     [このページのトップへ]


1696. Re: X とlog(Y)が相関のある2次元正規分布をするデータの処理 韮澤  2004/01/09 (金) 12:34
logをとってから最小二乗法をやるか,非線形最小二乗法をやるか,という問題はありますが,その種の作業をよくやる実務上の立場で,単純な直線近似の話で言うと・・・

直線近似に最小二乗法を使うと,人間が自分で引きたいと思う様な線より傾きが低めに出る傾向があります。これは最小二乗法がX軸には誤差がないとした計算であるのが原因で,これを解消するには,XとYのどちらにも誤差がある計算となる主成分分析で直線近似するのが効果的です。
この問題かどうか考えるのであれば,X-Yを反転して最小二乗近似をしてみて,近似直線が逆に傾きが大きくなりすぎるという現象が出るか試してみるのがよいと思います。

ただし,元データに対して,X軸データには誤差がないと考えるべきかどうか,という課題は,良く考えて下さい。

     [このページのトップへ]


1697. Re^2: X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente  2004/01/09 (金) 14:28
ご返事ありがとうございます。

まさに指摘されている点を考慮しReduced MajorAxis Regressionを行った訳なんですがそうすると回帰式から計算されたLog(Y)と実測のLog(Y)の平均はほぼ同じになるもののY自体の平均にはずれがでてくるので,これをどう処理するかで悩んでいます。

とは言え普通に最小二乗法でやるよりはだいぶましになってはいるのでもうこれで行ってしまおうかと思っているのですが,,,

     [このページのトップへ]


1659. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの  2004/01/08 (木) 15:00
> これは対数変換したYに対してRMAを行ったためではないかと考えているのですがこの差は補正可能でしょうか? (もしくは全く別のより適した手法が存在するのでしょうか?)

 予測値より低めという根拠の「予測値」がどのようにして得られたのかよく分かりませんが...。それはさておき。
 対数変換してから計算すべきか,変換せずに非線形最小自乗法を使うべきかは,元のデータの分布によります。最小二乗法はデータが正規分布することを仮定したときの最尤法ですから,データが正規分布しているのなら対数変換して計算すべきではないし,データが対数正規分布しているのなら対数変換して計算すべきです。どちらを使うべきかは元のデータの分布をよく検討してから決めるべきです。
 両軸方向に誤差のあるデータの回帰分析はBiometryでも still an open question と書かれていましたから,教科書的な決定版の方法というのはまだないようですね。
 ちょっと古いですが,参考になる文献を挙げておきます。
Sokal and Rohlf "Biometry" 3rd ed.
Harvey,P.H. and Pagel,M.D. (1991) "The Comparative Method in Evolutionary Biology" Oxford Univ. Press 邦訳は,「進化生物学における比較法」粕谷英一訳 北海道大学図書刊行会
Draper,N.R. and Smith,H. (1998) "Applied Regression Analysys 3rd Ed." Wiley
Draper,N.R. (1992) Straight line regression when both variables are subject to error. Proceedings of the 1991 Kansas State University Conference on Applied Statistics in Agriculture, pp.1-18

     [このページのトップへ]


1660. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの  2004/01/08 (木) 15:04
先の発言を一部訂正します。

>最小二乗法はデータが正規分布することを仮定したときの最尤法ですから,

「データ」を「誤差」に訂正します。

     [このページのトップへ]


1664. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente  2004/01/08 (木) 16:47
ご返事ありがとうございます。

私の書いた予測値云々というのは実測の全てのXに対して近似式よりYeを求め,その全Yeの平均と実測の全Yの平均を比較して言ったものです。

データの分布に関してはXのデータは正規分布,Yのデータは対数正規分布する傾向があることが知られているものなのでそうすると今度の場合は対数変換してから最小二乗法で近似するのが正しい気がしますが,最小二乗法で出てくる(?)Yの期待値は,あるXに対するYのばらつきのgeometric meanのイメージに近く,arithmetic meanが欲しい今回のケースでは過小評価になるのではないかというのが私の懸念です。 

*実際に対数変換してから最小二乗法で近似式を求め,そこから上述のYeの平均を計算すると非常に小さくなってしまいました。
http://www.festinalente.jp/XY.jpg

参考文献ありがとうございます。 調べてみます。

     [このページのトップへ]


1691. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの  2004/01/09 (金) 09:15
> データの分布に関してはXのデータは正規分布,Yのデータは対数正規分布する傾向があることが知られているものなのでそうすると今度の場合は対数変換してから最小二乗法で近似するのが正しい気がしますが,最小二乗法で出てくる(?)Yの期待値は,あるXに対するYのばらつきのgeometric meanのイメージに近く,arithmetic meanが欲しい今回のケースでは過小評価になるのではないかというのが私の懸念です。

 対数正規分布するデータの代表値は算術平均よりも幾何平均が妥当だと思いますが...。算術平均でなければならない理由が分かりません。

     [このページのトップへ]


1692. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente  2004/01/09 (金) 09:43
ご返事ありがとうございます。

>>  対数正規分布するデータの代表値は算術平均よりも幾何平均が妥当だと思いますが...。算術平均でなければならない理由が分かりません。

私は石油工学を生業としておりまして,このデータはXが地層岩石の孔隙率,Yが浸透率と呼ばれているものです。 地下数千メートルのデータが対象ですのでなかなか思うようなデータを取ることは難しいのですがXは比較的容易に計測できます。

今行いたいのは限定された数のX−Yデータから近似式を導き,比較的容易に観測できる他のXに対してその式を適用し,Yを求める作業です。 最終的に求めたい地層流体の流れ易さは大まかに言えば水平方向では対象区間のYの算術平均に,垂直方向ではその調和平均に影響される性質があるので算術平均が保たれ,かつYの低い値も無くならない(調和平均を有る程度保つため)近似方法を探しております。

     [このページのトップへ]


1693. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの  2004/01/09 (金) 10:41
> 今行いたいのは限定された数のX−Yデータから近似式を導き,比較的容易に観測できる他のXに対してその式を適用し,Yを求める作業です。

それであれば,普通に非線形最小二乗法で計算すると良いと思います。X軸方向の誤差を考慮する方法は必要ないだろうと思います。
データはかなりばらつきが大きいようですので,近似式だけではなく,推定値の信頼区間を求めておくことも重要ですね。

     [このページのトップへ]


1694. Re^2:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente  2004/01/09 (金) 11:09
何度もご返事ありがとうございます。

非線形最小二乗法では確かに平均値は有る程度保たれるのですが傾きがX-log(Y)での直線回帰以上に小さくなってしまい結果としてXが小さい域でのYがかなり大きくなってしまいます。

私がPlotしたやつは何かおかしいとしても青木様がわざわざPlotしてくださった下図でもXが2.5以下の域ではYの期待値がYの実測値を一桁近く上回っているように見えます。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/pic1.png

信頼区間についてはそのとおりですね。Yの期待値の信頼区間と共に対象区間のYの平均値の信頼区間も求めておきたいと思います。

     [このページのトップへ]


1698. Re:X とlog(Y)が相関のある2次元正規分布をするデータの処 ひの  2004/01/09 (金) 14:45
> 私がPlotしたやつは何かおかしいとしても青木様がわざわざPlotしてくださった下図でもXが2.5以下の域ではYの期待値がYの実測値を一桁近く上回っているように見えます。

 左下部分のデータの個数が少ないので,右上のほうのデータに引っ張られているのでしょう。対数変換していないので値の絶対値が小さい左下部分はたとえ桁違いにずれていても残差の絶対値が大きくないので計算にあまり反映されないのです。適当な重み付けをすれば改善すると思いますが…。
 実測値を反映した予測式にこだわるのなら,数式に当てはめるのをやめて,純粋に経験式(Xの値がこの範囲なら,Yの平均値はいくらという対応表)という形でもよいのではないでしょうか。曲線として表現したければスプライン曲線で結んで補完するとか。元データの範囲を超えて外挿することはできなくなりますが。

     [このページのトップへ]


1666. Re^3:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸  2004/01/08 (木) 18:11
> データの分布に関してはXのデータは正規分布,Yのデータは対数正規分布する傾向があることが知られているものなので

データ自体が正規分布に従うか対数正規分布に従うかではなくて,誤差の分布が正規分布に従うかどうかではないでしょうか?

     [このページのトップへ]


1665. Re^3:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸  2004/01/08 (木) 18:05
> http://www.festinalente.jp/XY.jpg

この図の非線形最小二乗法??による予測間違ってませんか?
こんなことあるんでしょうか。

     [このページのトップへ]


1668. Re^4:X とlog(Y)が相関のある2次元正規分布をするデータの処 青木繁伸  2004/01/08 (木) 18:58
似たような感じのデータを生成して,非線形最小二乗法とExcelの指数近似を作図しました。
Excel の指数近似は,もしかしたら計算精度が不足しているかもしれません。私が計算したら 0.020896 * 9.11965^x になった。
(底は exp でも何でもかまわない)

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/pic1.png
非線形最小二乗法は,従属変数の大きい方の値に引きずられるので,上方向にシフトするが,先に示されたもののようにはならないと思うのだが。

     [このページのトップへ]


1695. Re^5:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente  2004/01/09 (金) 11:33
わざわざPlotまでしていただきありがとうございます。

私の非線形最小二乗法はこちらのfit_exp1.xlsにXとYをコピーし走らせただけなのですがX-log(Y) plotでみるとおかしいですね,, X-Y Plotでみるとこんなものかとも思ったのですが,, 

ただ青木様のPlotしていただいたものでも,傾向として「上にシフトし」,「傾きは小さく」なっているので,結果としてXの小さい域(青木様のPlotではX<2.5あたり)ではYに近似値がかなり実測より大きくなってしまいそうな気がします。

結局もとのデータのばらつきが大きすぎるというのが一因なんでしょうがなかなかこれというものが見つけられません。

     [このページのトップへ]


1667. Re^4:X とlog(Y)が相関のある2次元正規分布をするデータの処 festinalente  2004/01/08 (木) 18:27
> この図の非線形最小二乗法??による予測間違ってませんか?

やはりそうですか,(^^;  もっとよく見てみます。

今回の場合はYは物理的にはX以外の要素も考慮しないといけないのですが実際問題としてはその他の要素は計測できません。つまり一つのXの値に対して取りうるY自体がは対数正規分布している状態です。

こういうデータは誤差の最小化をはかる最小二乗法などの近似には向かないのでしょうか??

     [このページのトップへ]


1653. Re: X とlog(Y)が相関のある2次元正規分布をするデータの処理 青木繁伸  2004/01/08 (木) 13:51
よく理解できない部分があるのですが,非線形最小二乗法ではだめなんでしょうか?


もしそれで良いなら,Excel のソルバーでも,係数の推定ができますが。

     [このページのトップへ]


1663. Re^2: X とlog(Y)が相関のある2次元正規分布をするデータの処理 festinalente  2004/01/08 (木) 16:37
お返事ありがとうございます。

非線形最小二乗方はこちらのVBA マクロの所のシートを使わせて頂いたのですが,Yの平均値は大きくなったもののXの低い域でのYのマッチングが非常に悪くなってしまったので今回のケースでは巧くいかないと考えました。

http://www.festinalente.jp/XY.jpg

#非線形最小二乗法のやり方が悪いのかこういうものなのかについてももう少し考えてみます。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 027 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る