問:重回帰分析で,重相関係数の二乗の値はどれくらいであればよいのでしょうか。
分散分析の検定結果が有意になる R2 の値を計算してみると別表のようになります。
k=1 のときは単回帰なので相関係数(r)の二乗が R2 になります。ケース数が 500 の場合, R2 が 0.008 よりも大きければ統計学的には有意になってしまいます。そのときの相関係数は 0.088 です。相関係数からみると,これは取るに足りない相関関係を表しています。
一般に,相関係数の絶対値が,
0.0〜0.2 のとき | ほとんど相関関係がない |
0.2〜0.4 のとき | やや相関関係がある |
0.4〜0.7 のとき | かなり相関関係がある |
0.7〜1.0 のとき | 強い相関関係がある |
などと評価されますね。この根拠は,例えば相関係数が 0.7 のとき,用いた独立変数によって従属変数を説明できる割合が 0.49 (49%)となる,すなわち独立変数は従属変数(の分散)をほぼ半分くらいを説明できるということからきています。つまり,相関係数は 0.7 より大きくないと(独立変数が従属変数の半分以上を説明できないと)実質的な意味がないと解釈しなさいということを表していることになります(これには異論もありますが,実際に相関係数が 0.7 位でも,散布図と回帰直線を引くと実に貧弱な予測式であることが実感できます)。
表の後半を見ると,例えば独立変数が 5 個の場合でケース数が 500 の場合, R2 が 0.022 よりも大きければ統計学的には有意になってしまいます。しかし,説明率が 2% というのは問題外なわけです。
このように,検定が有意になるような R2 は最小限の値であり,これは目安にならない(してはならない)ということになります。
望ましい R2 はアプリオリに決めておかねばならないということです。これには統計学は関与しません。対象としている研究分野ごとに異なるでしょう。場合によっては,説明率が 99% でないといけないこともあるだろうし,60% でもよいこともあるでしょう,ということです。
今出典は明らかではないのですが,「少なくとも 70% 望むらくは 80% くらいの説明率( R2 値では 0.7〜0.8 以上)でないと成功事例とは言えないだろう」ということをどこかで読みました。
n k R2 r
10 1 0.399 0.632
20 1 0.197 0.444
50 1 0.078 0.279
100 1 0.039 0.197
500 1 0.008 0.088
1000 1 0.004 0.062
10 2 0.575
20 2 0.297
50 2 0.120
100 2 0.060
500 2 0.012
1000 2 0.006
10 5 0.887
20 5 0.514
50 5 0.216
100 5 0.109
500 5 0.022
1000 5 0.011
Last modified: May 15, 2002
直前のページへ戻る E-mail to Shigenobu AOKI