★ 回帰式の選定について ★

 217 回帰式の選定について  ひが  2002/10/21 (月) 18:19
  243 Re: 回帰式の選定について  菊千代  2002/10/22 (火) 19:55
   244 Re^2: 回帰式の選定について  sb812109  2002/10/22 (火) 22:18
    292 Re^3: 回帰式の選定について お答え(その3)  菊千代  2002/10/31 (木) 00:59
     294 Re^4: 回帰式の選定について お答え(その3)  sb812109  2002/10/31 (木) 23:47
    291 Re^3: 回帰式の選定について お答え(その2)  菊千代  2002/10/31 (木) 00:54
    290 Re^3: 回帰式の選定について お答え(その1)  菊千代  2002/10/31 (木) 00:53
  219 Re: 回帰式の選定について  青木繁伸  2002/10/21 (月) 18:54
   220 Re^2: 回帰式の選定について  ひが  2002/10/21 (月) 19:08
    222 Re^3: 回帰式の選定について  青木繁伸  2002/10/21 (月) 20:07
     226 Re^4: 回帰式の選定について  ひが  2002/10/21 (月) 20:42
      233 Re^5: 回帰I定について  青木繁伸  2002/10/21 (月) 22:36
      229 Re^5: 回帰式の選定について  青木繁伸  2002/10/21 (月) 21:25
       230 Re^6: 回帰式の選定について  青木繁伸  2002/10/21 (月) 21:28
        237 Re^7: 回帰式の選定について  ひが  2002/10/22 (火) 09:14


217. 回帰式の選定について  ひが  2002/10/21 (月) 18:19
今,ある時系列データに様々な回帰式を適用しているのですが,
年次の取り扱いに困っております。

たとえば,直線やロジスティック,指数式を適用した場合,年次の値が昭和45,50,55でも西暦1970,1975,1980のどちらでも,F値などは同じになるのですが,対数やべき乗,2次式などを適用した場合,年号と西暦では,F値や推測値など大きく異なる値が出てきます。
データを対数に置き換えることが原因でしょうか?
わかる方がおりましたら,ご教授下さい。

なお,統計ソフトはエクセル統計2000を使っています。

     [このページのトップへ]


243. Re: 回帰式の選定について  菊千代  2002/10/22 (火) 19:55
統計屋さんたちには時系列はフィールドが違う分野なので,お答えに窮するかもしれません。「関数型の選択」と「時系列の扱い」は違う分野なので分けて考えてお答えします。

対数形や指数形を含んだあらゆる推定式の形を判断して決める方法に,Box-Cox変換というのがあります。その分野をお調べになって,F値が違ってくることをお確かめください。対数をとれば常にあてはまるということではないことがわかると思います。

次に,時系列の扱いですが,これには推定式にあてはめる前に,それぞれの生の変数について単位根検定をして定常性を調べます。さらに,推定式として共和分がないか共和分検定をします。単位根検定と共和分検定についてお調べください。そうではなくて,全ての生の時系列のデータをHodrick-Prescottフィルターで変換したものを用いて推定式を推定する方法もあります。つまり,時系列のデータは通常のOLSにせよ何にせよデータの段階で変換が必要になってくるのが常であります。

     [このページのトップへ]


244. Re^2: 回帰式の選定について  sb812109  2002/10/22 (火) 22:18
時系列データの用語には不慣れですので,間違った用法でもご容赦のほどを。

時系列データから何回か階差をとって定常性を実現するとします。
(1)何回階差をとるべきかの基準として,標準偏差が最小となるものをとる
   方法は一般的なのでしょうか?
(2)他に何か(目で見るのではなく)客観的な基準はあるのでしょうか?
(3)データによっても違うでしょうが,経験則として,おおよそ何回程度階
   差をとると定常性に辿り着くものでしょうか?

     [このページのトップへ]


292. Re^3: 回帰式の選定について お答え(その3)  菊千代  2002/10/31 (木) 00:59
補足(1)について,
ただし,1階の差分でI(0)になってしまえば,それをもう一度差分して2階にすると,一般に(その系列が独立であるならば),var(Δx)<var(Δ2 x)と分散(または標準偏差)は拡大していきます。したがって,好ましいことではありません。が,一度I(0)になれば,その時点でそれ以上の階差をとるのを中止するのが,基本的なステップです。

     [このページのトップへ]


294. Re^4: 回帰式の選定について お答え(その3)  sb812109  2002/10/31 (木) 23:47
「単位根検定」をネット上で拾い読みしてみました。

AR(1)モデルにおけるρが1のとき,単位根モデル(ランダム・ウォーク)という。
(1)ランダム・ウォークであるか否かが,どうしてそんなに重要視されるのでしょう?
(2)単位根検定とspurious regression が,対の様にして紹介されているサイトが多い
   のは何故?
(3)DW統計量とやらで回帰をspurious たらしめている因子が不明のまま,その存在が
   推定される?
(4)もし,(3)が可能としても,因子が不明のままでは,統計学的調整のやりようが
   無く,その時点で,解析を諦めなければならないのでは?

等々,疑問は尽きません。基本が判ってないと云うことでしょうが。

菊千代さん,丁寧な回答有難う御座いました。少し勉強してみます。先は長そう,,,。

1階差分:速度的なもの,2階差分:加速度的なものとの理解でいいのでしょうか。

     [このページのトップへ]


291. Re^3: 回帰式の選定について お答え(その2)  菊千代  2002/10/31 (木) 00:54
> (2)他に何か(目で見るのではなく)客観的な基準はあるのでしょうか?
DFテストのモンテカルロスタディーによるテーブルにより,クリティカルバリューを見て判断します。
> (3)データによっても違うでしょうが,経験則として,おおよそ何回程度階
>    差をとると定常性に辿り着くものでしょうか?
金融,経済データの場合,1回または,せいぜい2回です。
階差とは別にラグを考えるADFテストでは,AICやSC基準が用いられます。それらによるラグ数が小さすぎる場合には,データ数から自動的に計算してそのラグでやる方法もあります。その他LM法で計算する手もあります。しかしながら,これらはラグ数であって,階差ではありません。経済学の分野の「計量経済学」と名がつく中級程度の「単位根検定」という章がある教科書をご覧ください。

     [このページのトップへ]


290. Re^3: 回帰式の選定について お答え(その1)  菊千代  2002/10/31 (木) 00:53
> 時系列データから何回か階差をとって定常性を実現するとします。
> (1)何回階差をとるべきかの基準として,標準偏差が最小となるものをとる
>    方法は一般的なのでしょうか?
一般的ではありません。DFテストと呼ばれる特殊な分布にしたがうt分布のようなものであるτ統計値を単位根検定します。1階差分で一度I(0)になれば,データ系列に独立性があれば,その後差分をさらにとってもI(O)のままとなるはずです。τ統計値は,一般に,差分を取ればとるほどマイナスの絶対値の大きい方に移動していきますから,一度その時点でH0が棄却されれば,あとはずっと棄却されるはずです。

     [このページのトップへ]


219. Re: 回帰式の選定について  青木繁伸  2002/10/21 (月) 18:54
> 昭和45,50,55でも西暦1970,1975,1980のどちらでも,F値などは
> 同じになるのですが,対数やべき乗,2次式などを適用した場合,
> 年号と西暦では,F値や推測値など大きく異なる値が出てきます。

「エクセル統計2000」ってのは,VBA で作成されているのでしょうか,あるいは Excel そのままを使っているのでしょうか。
いずれにしろ,採用されているアルゴリズム,数値計算法がまずいのが原因ではないでしょうか。以下を参照してみてください。
http://aoki2.si.gunma-u.ac.jp/Hanasi/StatTalk/11-1.html

そうではないという場合,現象を再現できる小さなデータセットとその解析結果を示してください。別のソフトを使って検証してみましょう。

     [このページのトップへ]


220. Re^2: 回帰式の選定について  ひが  2002/10/21 (月) 19:08
> そうではないという場合,現象を再現できる小さなデータセットとその解析結果を示してください。別のソフトを使って検証してみましょう。
○早速,ご返事有り難うございます。

以下のようなデータに回帰式の当てはめを行っております。

説明変数1,説明変数2,目的変数
1,1961,10000
6,1966,16000
11,1971,19000
16,1976,23000
21,1981,28000

例えば,べき乗を当てはまた場合,変数1と目的変数ではF値が81.03,変数2と目的変数の場合,F値が58.05となります。

変数1でも2でもF値が変わらない回帰式は,直線,ロジスティック,指数であり,変数によりF値が変わる回帰式は,2次関数,対数,ルート,べき乗,分数です。

     [このページのトップへ]


222. Re^3: 回帰式の選定について  青木繁伸  2002/10/21 (月) 20:07
> 以下のようなデータに回帰式の当てはめを行っております。
>
> 説明変数1,説明変数2,目的変数
> 1,1961,10000
> 6,1966,16000
> 11,1971,19000
> 16,1976,23000
> 21,1981,28000
>
> 例えば,べき乗を当てはまた場合,変数1と目的変数ではF値が81.03,
> 変数2と目的変数の場合,F値が58.05となります。

べき乗とは何乗のことですか? x^k はxのべき乗の一般式で,k=2のときは二乗だしk=1/2のときは平方根ということですが。
定義は明確に。

ところで,提示した URL をご覧になってのコメントはどうでしょうか?

     [このページのトップへ]


226. Re^4: 回帰式の選定について  ひが  2002/10/21 (月) 20:42
> べき乗とは何乗のことですか? x^k はxのべき乗の一般式で,k=2のときは二乗だしk=1/2のときは平方根ということですが。
> 定義は明確に。
○べき乗ですが,y=a・X^bという式で,aとbが変数です。
 エクセル統計,特有の式なのかもしれませんが・・・

>
> ところで,提示した URL をご覧になってのコメントはどうでしょうか?
○2次式などについては,まさにこの現象だと思います。(参考になりました)

例えば,対数式で回帰分析を行う場合,xを1947,1948,1949・・とxを-1946した1,2,3・・・と設定した場合で,結果が異なるのは,前者後者ともに1間隔ですが,対数に置き換えると,Xが小さい方が差が大きくなるからでしょうか?

     [このページのトップへ]


233. Re^5: 回帰I定について  青木繁伸  2002/10/21 (月) 22:36
あ,y = a x^b なら,xの一次変換による分析結果は簡単な関係では表せません。
和歴と西暦を使った結果は異なるのが当たり前です。

log(y) = log(a)+b*log(x) において
log(y) = log(a')+b'*log(x')として(x=x'+α)
a と a',b と b' の関係を求めよというのは...むりだ

なるほど。こんなこと今まで気づかなかった。そんなこと,やるはずないと思っていたから。

回帰モデルを選ぶのは自由かもしれないけど,むやみに選んではいけない。

     [このページのトップへ]


229. Re^5: 回帰式の選定について  青木繁伸  2002/10/21 (月) 21:25
y=a・b^X もべき乗モデルですね。ただ,この場合は 定数の変数乗ということです。
だから,定義の明確化が必要なわけです。


> 例えば,対数式で回帰分析を行う場合,xを1947,1948,1949・・とxを-1946した1,2,3・・・と設定した場合で,結果が異なるのは,前者後者ともに1間隔ですが,対数に置き換えると,Xが小さい方が差が大きくなるからでしょうか?

結局,数値演算のやり方がまずいと言うことでしょう。

西暦と和歴の2乗,3乗が計算精度に影響を与えるようなアルゴリズムだと,
y=ax^b で b が2以上みたい事になると同じようなことが生じるわけですよね。
結局,あなたがお使いの統計ソフトはそのあたりの計算にたしいていい加減な扱いをしていると言うことが露見したわけです(^_^)

     [このページのトップへ]


230. Re^6: 回帰式の選定について  青木繁伸  2002/10/21 (月) 21:28
このあたりのことは知らない人が多いので強調しておきましょう。

コンピュータが扱うことができる数値(実数値)は,近似値なのです。

たとえば,我々が扱う10進数の世界では0.1は循環小数ではないですが,コンピュータにおいてはこれは循環小数であって,正確な0.1と言う数値を表しているのではありません。
また,コンピュータは有限桁数の数値しか扱えません。有効桁にすれば16桁です。十分じゃないかとお思いの人は,考えが甘いです。
たとえば1234567890123456と0.1234567890123456を加えても結果1234567890123456に変わりありませんといえば,その重大さが分かるでしょうか。

コンピュータ上での数値計算というのは,紙と鉛筆を使った数値計算に比べて正確なように思いますが(確かにある意味では正確ですが),ちっとも正確でない場合もあるのです。

紙と鉛筆で計算する方法をそのままコンピュータにやらせるという方法はおおむね破綻します。
以下を参照(Cプログラムの話だけど,あらすじだけでもたどれば...)
http://aoki2.si.gunma-u.ac.jp/Hanasi/Algo/letsc/1-body.html

     [このページのトップへ]


237. Re^7: 回帰式の選定について  ひが  2002/10/22 (火) 09:14
有り難うございました。大変勉強になりました。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 021 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る