意地悪なデータを用意して,アプリケーションソフトがどのように取り扱うかを見るのは,いろんな意味で勉強になる。
以下の41組のx,yをxの3次多項式により多項式回帰する。
x 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956
y 1457.4 1188.2 1156.2 1087.6 992.0 891.1 887.6 817.2 776.8 802.6
x 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966
y 826.1 743.6 742.1 756.4 737.8 746.2 697.6 692.6 712.7 676.7
x 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976
y 677.5 681.1 680.0 691.4 656.0 646.6 656.4 649.4 631.2 625.6
x 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986
y 608.0 607.6 597.3 621.4 614.5 603.2 623.0 619.3 625.5 620.6
x 1987
y 618.1
散布図で近似曲線を求めると以下の図のようになるが,精度が足りない。特に,精度の悪い推定値に基づいて計算される R2 の値は,でたらめになってしまう(正しい値は 0.94018 なのに,0.3127 などという値になってしまっている)。
注:Excel 2000 からは,「すこしまし」になっていたようである。その結果は,下に示すのと同じ結果になるが,精度がまだ足りない。
xの2乗,3乗を用意して分析ツールの回帰分析を行うと以下のようになるが,これも精度不足。
概要
回帰統計
重相関 R 0.969621818
重決定 R2 0.940166469
補正 R2 0.935315102
標準誤差 47.32754253
観測数 41
分散分析表
自由度 変動 分散 観測された分 有意 F
回帰 3 1302236.194 434078.7312 193.7941211 1.13625E-22
残差 37 82876.16243 2239.896282
合計 40 1385112.356
係数 標準誤差 t P-値 下限 95% 上限 95% 下限 95.0% 上限 95.0%
切片 275962052 43003279.72 6.417232681 1.71383E-07 188829215.7 363094888.2 188829215.7 363094888.2
X 値 1 -419522.8756 65589.44005 -6.396195413 1.82951E-07 -552419.5751 -286626.1762 -552419.5751 -286626.1762
X 値 2 212.5889863 33.34547854 6.375346694 1.95189E-07 145.024695 280.1532777 145.024695 280.1532777
X 値 3 -0.035909031 0.00565081 -6.354670161 2.08138E-07 -0.047358648 -0.024459414 -0.047358648 -0.024459414
分析結果の精度が悪いそもそもの原因は,x の値が大きすぎること。
この場合は例えば x-1947 を用いて処理するとまずまずまともな答えが出る。
しかし,基本的には,そのようなことをユーザに求めるのは筋違いである。
正しい答えは以下の通り。
● 3次多項式へのあてはめ結果
標準化
偏回帰係数 標準誤差 t値 P値 偏回帰係数
定数項 2.805901e+08 4.335965e+07 6.4712256 0.00000
1次の項 -426581.6 66132.98 6.4503609 0.00000 -27460.95
2次の項 216.1776 33.62182 6.4296832 0.00000 54746.97
3次の項 -0.03651717 0.005697638 6.4091763 0.00000 -27287.03
t値の自由度 ・・・ 37
● 分散分析表
要因 平方和 自由度 平均平方 F値 P値
回帰 1302262. 3 434087.2 193.8576 0.00000
残差 82850.65 37 2239.207
全体 1385112. 40
重相関係数 ・・・・・・・・・・・・・・・・・・・・・・・ 0.96963
決定係数(重相関係数の二乗) ・・・・・ 0.94018
自由度調整済み重相関係数の二乗 ・・・ 0.93534
Excel 2004 で,正確な答えを出すようになったようだ。
「分析ツール」の「回帰分析」の結果