問:直線回帰を行ったのですが,結果の読み方および予測値の信頼限界の求め方を教えてください。
> Xデータ Yデータ
> 3.65     2.05                  
> 9.95     5.83
> 10.30    6.51
> 12.70    8.38                       
> 8.41     8.43
> 3.96     4.73
> -1.73    1.65
> -2.97    -1.62
> 4.00     5.62
> 6.99     5.33
> 
> Y 切片                  1.640    
> 
> Y 評価値の標準誤差      1.465・・・・・この意味が分かりません 
 予測値の信頼限界には二通りあります。  以下では,前者の信頼限界について記述します(後者についてもほんのわずかの修正で同じように求めることができます)。

 標本サイズ(標本の大きさ)を n とします。

 「Y 評価値の標準誤差」とは,回帰直線の回りの標本標準偏差です(つまり実測値 Y_i から予測値 Y_hat を引いたものの二乗和を「n-2」で割ったものの平方根)。これを sde = sqrt[Σ(Yi-Y_hat)2/(n-2)],変数 Y の不偏分散を σy2 = Σ(Yi-Ymean)/(n-1) とすると,「自由度を調整した重相関係数の二乗値」 R2' = (σy2-sde2)/σy2 が得られます。
 変数 Y の平方和は (n-1)*σy2,回帰で説明できない残差平方和は (n-2)*sde2 であり,これにより「自由度を調整しない重相関係数の二乗値」 R2 = {(n-1)*σy2-(n-2)*sde2}/{(n-1)*σy2} = 0.808 となります。
 R2' および R2 は回帰により説明される割合(0から1の範囲の値を取る)で,1に近いほど予測がうまくいっていることを表します。つまり,「Y 評価値の標準誤差」が小さいほど R2'R2 が1に近くなるわけです。(参考URL

> R2                      0.808           
> X 係数                  0.552
> X 係数の標準誤差        0.095・・・・・この意味がわかりません
 これは 「X 係数 が 0 に等しいかどうかの検定」に使われるものです。
 t = 「X 係数」/「X 係数の標準誤差」 = 0.552/0.095 ≒ 5.811 が大きいほど,「X 係数は 0 ではない」ということが示唆されます。もう少し正確に言えば,計算された値 t = 5.811 は 自由度 n-2 の t 分布に従い,これより大きな値を取る確率は 0.0004 と非常に小さい値ですので「帰無仮説:X係数は 0 である」を否定することになり,「X係数は 0 ではない」という結論を採用することになります。(参考URL

> Y=0.552*X+1.64の式でいいのですね
> 次にXが4.40の時はYが4.07となりますね
 はい,その通りです。
> 以下がわからないのですが、この値(4.069)                      
> は推定値ですので、ほんとの値はどの範囲にあるか示すことができるのでしょうか?
 X がある値 x = 4.4 を取るときのYの推定値の真の値を範囲で推定するとき,この範囲のことを「信頼区間」といいます。95%信頼区間とは,繰り返しそのような信頼区間を求めたとき,そのうちの95%の信頼区間が真の値を含むことを意味します。(参考URL

 さて,95%信頼区間を求める方法は以下のようになります。
 Sy = sde*sqrt{(1/n)+[(z-meanX)2/Σ(Xi-meanX)2]}
 t' を 自由度が n-2 の t 分布の両側確率が 5%( = 100%-95%) になるような値(パーセント点)としたとき(参考URL),信頼区間は 予測値-t'*Sy から 予測値+t'*Sy ということになります。

 z = 4.40 のとき,予測値は 4.0688,t' = 2.306Sy = 1.465*sqrt(1/10+(4.40-5.526)2/237.4218)≒0.47548 なので,t'*Sy≒1.0965 ゆえ,予測値の 95%信頼区間は[4.0688-1.0965,4.0688+1.0965]すなわち[2.9723,5.1653]となります。

なお,正確な計算をすると,
Y 切片 = 1.64043423469383
X 係数 = 0.552038683551606
se = 17.1655658200779
Y 評価値の標準誤差 sde = 1.46481934978677
t' = 2.30600413531647
X の平均値 = 5.526
Σ(Xi-meanX)2 = 237.42184

なので,
Sy = 0.475424000163283
t'* Sy = 1.09632971040523
X=4.4 のときの Y の予測値 = 4.06940444232089
なので,信頼区間は
[ 2.97307473191566 , 5.16573415272612 ]
となります。
上のおおざっぱな計算は小数点以下2桁くらいまでは正確ですね。
詳しいことの書いてある本は以外と少ないのですが,
岩波書店の,スネデカー,コクラン著 畑村ら訳の「統計的方法」には詳しく書いてあります。

Excel による計算方法


Last modified: May 15, 2002

・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI