「統計学関連なんでもあり」の過去ログ--- 040

No.03464　最小２乗法　定数項あり　なしについて　　【早稲田】　2007/05/27(Sun) 12:28

被説明変数は従業員の平均年次有休消化率で，説明変数は，産業ダミー，従業員数ダミー，制度ダミー（制度あり＝1，制度なし＝0）で分析してみました。下の表がその結果であります。定数項あり　なしでは結果に差があり　論文では定数項なしのほうである，2番目の表を使いたいと思っております。制度が有休消化率に与える影響を見たかったのですが，定数項あり　なしではどちらを使うべきですか？被説明変数が百分率であることを含めて，お教えくだされば幸いです。　表に多少のずれがあり，もしわけありません。

Dependent Variable: Q5_NENNYUUSHUTOKURITU				
Method: Least Squares				
Date: 05/27/07   Time: 12:01				
Sample: 1 327				
Included observations: 327				
				
　　　　Coefficient　     Std. Error　　t-Statistic	　Prob.  
				
定数項  59.27679	　     4.100040	     14.45761　	     0.0000
Q1_2	2.245208	　4.560412	0.492326　	0.6228
Q1_3	-5.231225	　4.352073	-1.202008　	0.2303
Q1_4	6.952527	　4.439712	1.565986　	0.1184
Q1_5	-4.245733	　6.430770	-0.660222　	0.5096
Q1_6	16.76038	　24.11865	0.694914　	0.4876
Q1_7	-9.909160	　6.874736	-1.441388　	0.1505
Q2_2	-0.822500	　3.079834	-0.267060　	0.7896
Q2_3	1.739572	　4.547330	0.382548　	0.7023
Q2_4	1.656441	　4.782909	0.346325　	0.7293
Q8_1	-3.042157	　3.057856	-0.994866　	0.3206
Q9_1	-1.806391	　6.615085	-0.273071　	0.7850
Q10_1	-1.512504	　2.745853	-0.550832　	0.5821
Q11_1	-2.817638	　2.734516	-1.030397　	0.3036
Q12_1	1.240863	　7.572200	0.163871　	0.8699
Q16_1	-0.152100	　2.819852	-0.053939　	0.9570
Q17_1	0.525956	　5.721495	0.091926　	0.9268
Q21_1_1	5.859792	　2.658793	2.203930　	0.0283
Q21_1_2	2.115476	　2.968651	0.712605　	0.4766
				
R-squared	        0.049640	    Mean dependent var		59.39755
Adjusted R-squared	-0.005900	    S.D. dependent var		23.62295
S.E. of regression	23.69254	    Akaike info criterion	9.224545
Sum squared resid	172891.7	    Schwarz criterion		9.444757
Log likelihood	        -1489.213	    Hannan-Quinn criter.	9.312413
F-statistic	        0.893766	    Durbin-Watson stat		1.794005
Prob(F-statistic)	0.586605			
				
Dependent Variable: Q5_NENNYUUSHUTOKURITU				
Method: Least Squares				
Date: 05/27/07   Time: 12:05				
Sample: 1 327				
Included observations: 327				
				
	Coefficient	Std. Error	t-Statistic	　Prob.  
			
Q1_2	9.511032	5.863087	1.622188	0.1058
Q1_3	3.570015	5.574179	0.640456	0.5224
Q1_4	19.27457	5.636075	3.419856	0.0007
Q1_5	7.522193	8.251472	0.911618	0.3627
Q1_6	20.90204	31.19592	0.670025	0.5033
Q1_7	-3.660681	8.875067	-0.412468	0.6803
Q2_2	22.67174	3.384153	6.699382	0.0000
Q2_3	24.50257	5.518265	4.440267	0.0000
Q2_4	21.96448	5.914000	3.713981	0.0002
Q8_1	7.243936	3.846867	1.883074	0.0606
Q9_1	12.63780	8.458639	1.494070	0.1362
Q10_1	8.435034	3.438520	2.453101	0.0147
Q11_1	11.64687	3.291924	3.538014	0.0005
Q12_1	5.580143	9.787148	0.570150	0.5690
Q16_1	13.44316	3.438764	3.909302	0.0001
Q17_1	-2.410762	7.396242	-0.325944	0.7447
Q21_1_1	20.72283	3.171729	6.533607	0.0000
Q21_1_2	9.344318	3.785172	2.468664	0.0141
				
R-squared	        -0.595316	    Mean dependent var		59.39755
Adjusted R-squared	-0.683085	    S.D. dependent var		23.62295
S.E. of regression	30.64694	    Akaike info criterion	9.736416
Sum squared resid	290223.7	    Schwarz criterion		9.945037
Log likelihood	        -1573.904	    Hannan-Quinn criter.	9.819659
Durbin-Watson stat	1.811918

No.03465　Re: 最小2乗法　定数項あり　なしについて　　【青木繁伸】　2007/05/27(Sun) 12:53

まず，定数項無しモデルで，「R-squared -0.595316」になっているところに注意してみてください。
おかしいでしょう？

次に，定数項ありモデルですが，これも「R-squared 0.049640」に注目しましょう。
モデルとはいえない低さですね。
個々の偏回帰係数についても，偏回帰係数=0 の帰無仮説はほとんどのものにおいて採択されてしまっていますね。

定数項のありなしを考える前に，根本的な考察が必要ではないでしょうか？

# 分析に使用したソフトは何ですか？

No.03466　Re: 最小2乗法　定数項あり　なしについて　　【早稲田】　2007/05/27(Sun) 13:50

青木繁伸先生

ご返答有難うございます。こんかいの分析の目的は，有休消化率に影響を与える因子を探ることだったのですが，ProbやDurbin-Watson stat以外にも，R-squaredも重要になってきますか？
今回の変数は先行研究を参考にしたのですが，サンプルが327と少ないのも問題なのかなとおもいました。

ソフトはEViewsです。

No.03467　Re: 最小2乗法　定数項あり　なしについて　　【青木繁伸】　2007/05/27(Sun) 14:14

> ProbやDurbin-Watson stat以外にも，R-squaredも重要になってきますか

R-square が何を意味しているかおわかりにならないのでしょうか？
しかも，R-squared の意味の通り，R の二乗値なのに，なんでその値が負になっているのですか？使用したソフトのバグですね（というか，Excel のプログラマと同じく，原点を通る場合とそうでない場合の違いを分かっていない http://aoki2.si.gunma-u.ac.jp/Hanasi/StatTalk/11.html を参照のこと）。

Prob. って，どのProb.をおっしゃっているのでしょうか（どれにしても，この分析の問題を指摘しているということに変わりないのですが。F statistics の下にある Prob. は，ダービン・ワトソンの検定じゃないですよ。回帰の分散分析の F-statistics に対応する Prob. です。そして，その値が 0.05 より大きい，ということは，この予測式が成功しているとはいえないという帰無仮説を受け入れるということを示唆しているのですよ。（R-square が負であるのは問題外で，この値が1に近くなければ，回帰は成功していないのです）。

定数項ありの場合には R-square はかろうじて正ではあるものの，0に非常に近い。さらに，Adjusted R-squared -0.005900 となっているのも，そのせいですが，論外です。

Durbin-watson は，誤差の系列相関の有無についてのものでしょう？今回のような分析には全く意味のない統計量ではないですか。
サンプルが少ないのは直接の原因ではないでしょう。
サンプルにバイアスがあるとすれば問題でしょう。

EViews って，ずいぶん高いソフトのようですが，R-square を負の値で出してしまうとは驚きです。

No.03493　Re: 最小2乗法　定数項あり　なしについて　　【早稲田】　2007/05/29(Tue) 09:38

青木繁伸先生

先生のご指摘通り，式を変えたら良い結果が出ました。有難うございました。

No.03500　Re: 最小2乗法　定数項あり　なしについて　　【青木繁伸】　2007/05/29(Tue) 14:22

> 式を変えたら良い結果が出ました

どういうふうに式を変えたのかを教えていただくと，他の人にも参考になるかも知れませんね。

No.03506　Re: 最小2乗法　定数項あり　なしについて　　【統計文系型】　2007/05/29(Tue) 18:04

今回のケースでは，説明変数の数を増やしたらR-square やProbが良い値になりました。この現象は実証分析ではごく普通の事なのでしょうか？
サンプルが少ないと，説明変数の数をあまり増やさないほうが良い結果が得られると思っていたのですが。。。

No.03507　Re: 最小2乗法　定数項あり　なしについて　　【青木繁伸】　2007/05/29(Tue) 19:36

> サンプルが少ないと，説明変数の数をあまり増やさないほうが良い結果が得られると思っていた

自由度調整済みの重相関係数の二乗（Adjusted R-squared）で判断すれば，そのあたりの調整をしてくれているので。。。。

いずれにせよ，決定係数や自由度調整済み重相関係数の二乗が小さいと言うことは，それらの説明変数では，非説明変数を説明できませんよということに他ならないわけです。

また，偏回帰係数=0の検定に対するP value が 0.05 より大きいものは，予測に役立たないということです。そのような変数は全部捨てましょう（と，一概には言えないので，変数選択法を適用すればよいのだが）。

結局，重要な説明変数が入っていなかった（考慮されていなかった）ということなんでしょうか？

# 経済学関係で重回帰分析を適用している結果を見ると，ちょっと首をかしげたくなることがときどきあると思うのは，私の偏見か。。。