★ 非線形回帰曲線の評価方法 ★

2595. 非線形回帰曲線の評価方法 分散 2004/03/04 (木) 16:25
└2599. Re: 非線形回帰曲線の評価方法 青木繁伸 2004/03/04 (木) 17:40
 └2601. Re^2: 非線形回帰曲線の評価方法 分散 2004/03/04 (木) 18:17
  └2604. Re^3: 非線形回帰曲線の評価方法 青木繁伸 2004/03/04 (木) 19:43
   └2606. Re^4: 非線形回帰曲線の評価方法 分散 2004/03/04 (木) 20:37
    └2608. Re^5: 非線形回帰曲線の評価方法 青木繁伸 2004/03/04 (木) 21:27
     └2628. Re^6: 非線形回帰曲線の評価方法 分散 2004/03/05 (金) 12:35
      ├2631. Re^7: 非線形回帰曲線の評価方法 青木繁伸 2004/03/05 (金) 14:00
      │└2636. Re^8: 非線形回帰曲線の評価方法 分散 2004/03/05 (金) 17:10
      └2629. Re^7: 非線形回帰曲線の評価方法 分散 2004/03/05 (金) 12:36


2595. 非線形回帰曲線の評価方法 分散  2004/03/04 (木) 16:25
 教えてください。
 カテゴリー変数X1, X2,..Xnに対して,観測値Yがそれぞれk個あるようなデータセットにおいて,XとYの回帰曲線を描こうとしています。このとき,相関比(決定係数と同じもの?)はどのように求めたらよいのでしょうか。教科書には1 - SSE/SSTとありますが,各層内での平均値と実測値との偏差平方和(SST)と,理論値と実測値との残差平方和(SSE)を比べれば,当然SSEの方が大きくなって,相関比はマイナスの値になってしまうと思うのですが。この場合のSSEとSSTの求め方を教えていただければ幸いです。
 よろしくお願いします。

     [このページのトップへ]


2599. Re: 非線形回帰曲線の評価方法 青木繁伸  2004/03/04 (木) 17:40
> 各層内での平均値と実測値との偏差平方和(SST)

SST って,全データについて,全体の平均値との偏差の平方和ではないですか。

     [このページのトップへ]


2601. Re^2: 非線形回帰曲線の評価方法 分散  2004/03/04 (木) 18:17
 返信をありがとうございます。
 どうやらSSTの解釈を誤っていたようです。申し訳ありませんが,以下の点を確認させていただけないでしょうか。

SSEの求め方:
1.一つの層内で,そこに属する実測値(この場合k個)と,この層における理論値との残差平方和をとる。
2.上の値をすべての層について求め(n個できる),合計する。
SSTの求め方:
1.すべての実測値(この場合n x k個)の全平均値を求め,それとすべての実測値との偏差平方を求めて合計する。SSEのように,層ごとに計算する必要はない。
SSRの求め方:
1.各層ごとの理論値(この場合n個)と全平均値との偏差平方を求め,それを合計する。
決定係数の求め方:
1. 上で求めたSSE,SST,SSRを使って,1 - (SSE/SST),または単にSSR/SSTを求める。

 こういうことでよろしいのでしょうか?

     [このページのトップへ]


2604. Re^3: 非線形回帰曲線の評価方法 青木繁伸  2004/03/04 (木) 19:43
層を考えて処理することを考えているようですが,そのようにする必要があるのでしょうか?
独立変数が同じ点が複数個あるだけで,しかも,それぞれの個数が同じなら重み付けも個数による重み付けも考える必要がないのだから,普通の回帰分析(独立変数の値はほぼ全部異なった値を持つ)と同じように考えるというのは間違いなんでしょうか。

私は,そんな風に受け止めましたが,私の方が間違えているのかも。

     [このページのトップへ]


2606. Re^4: 非線形回帰曲線の評価方法 分散  2004/03/04 (木) 20:37
 回答をありがとうございます。

> 層を考えて処理することを考えているようですが,そのようにする必要があるのでしょうか?

 SSTについては,実測値を一纏めにして全平均値と比較することができそうですが,SSEとSSRは定義からして,層毎に計算した値を加算するしかないのではないでしょうか?今回の例で使用している独立変数Xは,小さい方から-1, -0.5, 0.0, 0.5, 1.0という比率変数で,同じ値のものはありません。教科書の決定係数を求める式をみて,Matlabでプログラムを書いて処理させていますが,何度計算してもSSEがSSTより大きくなって決定係数がマイナスになるか,SSEとSSRの和がSSTと等しくならないかのどちらかになります。前のメイルで書いた方法では,決定係数の値は正になりましたが,SSEとSSRの和がSSTになりません。偏差(残差)平方和を求めるプログラムは,単純な例や手計算の結果とも一致するの,間違ってはいないと思うのですが...。SSE,SSRおよびSSTの,この場合の具体的な方法をご教唆していただけないでしょうか。よろしくお願いいたします。

     [このページのトップへ]


2608. Re^5: 非線形回帰曲線の評価方法 青木繁伸  2004/03/04 (木) 21:27
どこかに行き違いがあったのかもしれません。

> カテゴリー変数X1, X2,..Xnに対して,観測値Yがそれぞれk個あるようなデータセットにおいて,XとYの回帰曲線を描こうとしています。このとき,相関比(決定係数と同じもの?)は

X1, X2,..Xn は,カテゴリー変数なんですか?
厳密な用語法では,カテゴリー変数のカテゴリーには順序関係はない,なおかつ(当然),等間隔であることもないということですよね。
にもかかわらず,「XとYの回帰曲線を描こうとしています」ということはどういうことでしょうか。

私が,あなたの記事を読んで理解していたのは,独立変数が n 種類の値,X1, x2,...,Xn あって,それぞれにおいて k 個の従属変数の値がある(つまり,k × n の独立変数と従属変数のデータ組がある)ということだったのですが,ちがうのですか。

「小さい方から-1, -0.5, 0.0, 0.5, 1.0という比率変数で,同じ値のものはありません。」ですよね。でも,x1=-1 のときの y の値は複数個(k個)ありますよということでしょう?(そのように書いてあったと思いますが,違いますか?)
x1, y11
x1, y12
  :
x1,y1k
x2,y21
  :
x2,y2k,
 :
xn,yn1
 :
xn,ynk
というデータがあるとき,回帰分析して sst, ssr, sse を計算と言うことで,層を考慮する必要があるのですか?


     [このページのトップへ]


2628. Re^6: 非線形回帰曲線の評価方法 分散  2004/03/05 (金) 12:35
 回答をありがとうございました。説明の仕方が正しくありませんでした。今回扱っているデータセットは,独立変数がX = [-1.0, -0.5, 0.0, 0.5, 1.0]の5つの値をとり,それぞれのXにおける観測値をYにとっています。観測は7回行ないました。したがって,前のメイルで書きましたnとkは,それぞれ7と5になります。この時,XとYとの間にある関係を曲線で近似し,その適合の度合いを求めたいというのが現在私の抱えている問題です。これまで私が「層」と表現していたのは,Xのある値における実測値(この場合7個)の集団のことです。今回の場合は,XとYの間はsinusoidかgaussian,またはGabor関数でよく近似されることがわかっているため,この3つの関数についてそれぞれ最小二乗法によって回帰曲線を描き,どの関数が最もよくfitするかを検討したいと考えています。ここで,データ(5 x 7 = 35個あります)の全平均と全実測値との偏差平方和をSSTとし,Xの各値における実測値と理論値との残差平方和をSSEとしてR2乗値を計算するとそれらしい値が出るのですが,5つの理論値と全平均との偏差平方和をSSRとすると,SSEとSSRの和がSSTになりません。そこで,この3つの値の正しい求め方を教えていただけないでしょうか。よろしくお願いいたします。

     [このページのトップへ]


2631. Re^7: 非線形回帰曲線の評価方法 青木繁伸  2004/03/05 (金) 14:00
> 5つの理論値と全平均との偏差平方和をSSRとすると,
なぜそうやって計算したものが SSR なのですか?
なぜ35個の理論値と全平均との偏差平方和ではないのですか?

それと,曲線回帰のときにも sst=ssr+sse って成り立ちましたっけ。

     [このページのトップへ]


2636. Re^8: 非線形回帰曲線の評価方法 分散  2004/03/05 (金) 17:10
 回答をありがとうございました。

> なぜ35個の理論値と全平均との偏差平方和ではないのですか?
> それと,曲線回帰のときにも sst=ssr+sse って成り立ちましたっけ。

 SSRを計算する際に,理論値と全平均との残差平方和をkで重み付けして加算したところ,SST = SSR + SSEになりました。どうも,ここが間違っていたようです。手持ちの教科書には,曲線回帰の際にもこの関係が成り立つように書いてあるので,検算の意味もあって計算しています。私はMatlabを使って計算しており,データをk x nの行列としてながめていたので,誤解に気がつかなかったように思います。最初から行ベクトルになおして考えればよかったのかも知れません。大変勉強になりました。どうもありがとうございました。

     [このページのトップへ]


2629. Re^7: 非線形回帰曲線の評価方法 分散  2004/03/05 (金) 12:36
 先ほどのメイルで,「nとkはそれぞれ7と5」と書きましたが,n = 5,k = 7の誤りでした。訂正してお詫び申し上げます。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 028 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る