Excel での回帰分析     Last modified: Jul 17, 2003

意地悪なデータを用意して,アプリケーションソフトがどのように取り扱うかを見るのは,いろんな意味で勉強になる。

以下の41組のx,yをxの3次多項式により多項式回帰する。

x     1947   1948   1949   1950   1951   1952   1953   1954   1955   1956
y   1457.4 1188.2 1156.2 1087.6  992.0  891.1  887.6  817.2  776.8  802.6

x     1957   1958   1959   1960   1961   1962   1963   1964   1965   1966
y    826.1  743.6  742.1  756.4  737.8  746.2  697.6  692.6  712.7  676.7

x     1967   1968   1969   1970   1971   1972   1973   1974   1975   1976
y    677.5  681.1  680.0  691.4  656.0  646.6  656.4  649.4  631.2  625.6

x     1977   1978   1979   1980   1981   1982   1983   1984   1985   1986
y    608.0  607.6  597.3  621.4  614.5  603.2  623.0  619.3  625.5  620.6

x     1987
y    618.1
散布図で近似曲線を求めると以下の図のようになるが,精度が足りない。特に,精度の悪い推定値に基づいて計算される R2 の値は,でたらめになってしまう(正しい値は 0.94018 なのに,0.3127 などという値になってしまっている)。
figure

注:Excel 2000 からは,「すこしまし」になっていたようである。その結果は,下に示すのと同じ結果になるが,精度がまだ足りない。


xの2乗,3乗を用意して分析ツールの回帰分析を行うと以下のようになるが,これも精度不足

概要

  回帰統計
重相関 R       0.969621818
重決定 R2      0.940166469
補正 R2        0.935315102
標準誤差       47.32754253
観測数                  41

分散分析表
                自由度        変動         分散     観測された分    有意 F
回帰                     3  1302236.194  434078.7312  193.7941211  1.13625E-22
残差                    37  82876.16243  2239.896282
合計                    40  1385112.356

                 係数       標準誤差        t           P-値       下限 95%     上限 95%    下限 95.0%   上限 95.0%
切片             275962052  43003279.72  6.417232681  1.71383E-07  188829215.7  363094888.2  188829215.7  363094888.2
X 値 1        -419522.8756  65589.44005 -6.396195413  1.82951E-07 -552419.5751 -286626.1762 -552419.5751 -286626.1762
X 値 2         212.5889863  33.34547854  6.375346694  1.95189E-07   145.024695  280.1532777   145.024695  280.1532777
X 値 3        -0.035909031   0.00565081 -6.354670161  2.08138E-07 -0.047358648 -0.024459414 -0.047358648 -0.024459414
分析結果の精度が悪いそもそもの原因は,x の値が大きすぎること。

この場合は例えば x-1947 を用いて処理するとまずまずまともな答えが出る。

しかし,基本的には,そのようなことをユーザに求めるのは筋違いである。


正しい答えは以下の通り。

● 3次多項式へのあてはめ結果
                                                                       標準化
                 偏回帰係数       標準誤差       t値     P値       偏回帰係数
     定数項    2.805901e+08   4.335965e+07    6.4712256  0.00000
   1次の項       -426581.6       66132.98    6.4503609  0.00000      -27460.95
   2次の項        216.1776       33.62182    6.4296832  0.00000       54746.97
   3次の項     -0.03651717    0.005697638    6.4091763  0.00000      -27287.03
                                           t値の自由度 ・・・ 37

● 分散分析表

要因          平方和    自由度       平均平方         F値     P値
回帰        1302262.         3       434087.2       193.8576  0.00000
残差        82850.65        37       2239.207
全体        1385112.        40

重相関係数 ・・・・・・・・・・・・・・・・・・・・・・・ 0.96963
決定係数(重相関係数の二乗) ・・・・・ 0.94018
自由度調整済み重相関係数の二乗 ・・・ 0.93534


Excel 2004 で,正確な答えを出すようになったようだ。
figure

「分析ツール」の「回帰分析」の結果
figure


・ 続き


・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI