No.06089 相関について  【藍】 2008/03/09(Sun) 17:03

HPにはずいぶんとお世話になりました。
有益なサイトを造っていただき,統計初学者(私はそれにも入れていませんが・・・)はとてもたすけられています。
企業の制度と研究成果についての研究をしています。
必要に迫られて統計を使用することになり,自分なりに勉強しているのですがいまいち判らないところが多く,質問に参りました。
調査している企業の創業より現在に至るまでには,3度の報奨制度変更があります。
それぞれの制度を採っていた期間ごとに,研究人員と成果(特許の数)を取りました。
これを,SPSSかエクセルを用いてA制度のときは研究人員が多いほど研究成果が出ているが,B制度の時には相関が見られない・・・という仮説を数的に明らかにしたいと思っています。
まず,全体について単回帰分析(研究人員を独立変数,研究成果を従属変数として)を行ったところ,回帰直線にもあてはまり有意でした。
しかしA制度とB制度の時には,ばらつきが大きく,あまり回帰直線に当てはまりませんでした。(全体0.000 A制度.540 B制度.850 C制度.450 D制度.030)
教えていただきたいのは,下記の3点です。
・5%有意で有意とするのが一般的なので,C,Dに関しては有意であると言えるのではないかと思いますが,間違っていないでしょうか?
・標本数も一緒ではないので,無相関の検定をしたほうが良いのでしょうか?
・考え方などで明らかに間違っている点がありましたらご指摘いただけると幸いです。
ご教授いただけましたら幸いです。乱文乱筆お許しください。

No.06091 Re: 相関について  【青木繁伸】 2008/03/09(Sun) 19:15

> 標本数も一緒ではないので,無相関の検定をしたほうが良いのでしょうか?

この点についてのみコメント

単回帰分析(y=ax+b)のとき a の有意性の検定(H0: a=0)は,x と y の母相関係数の検定(ρ=0),および回帰の分散分析はおなじです。以下の★★で示した3カ所のP値(表示桁数の関係で違うように見えるが,実際は同じ数値)
> x <- rnorm(20)
> y <- rnorm(20)
> cor.test(x, y) # 無相関の検定

Pearson's product-moment correlation

data: x and y
t = 0.4659, df = 18, p-value = 0.6469 # ★★ ここの 0.6469 と
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.3502841 0.5262572
sample estimates:
cor
0.1091569

> summary(lm(y~x)) # 単回帰分析

Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-2.5171 -0.5123 0.1209 0.4015 2.1064

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.06211 0.21931 -0.283 0.780
x 0.08593 0.18445 0.466 0.647 # ★★ ここの 0.647(回帰係数の検定)と

Residual standard error: 0.9792 on 18 degrees of freedom
Multiple R-squared: 0.01192, Adjusted R-squared: -0.04298
F-statistic: 0.2171 on 1 and 18 DF, p-value: 0.6469 # ★★ ここの 0.6469(分散分析)

No.06092 Re: 相関について  【青木繁伸】 2008/03/09(Sun) 20:42

> A制度のときは研究人員が多いほど研究成果が出ているが,B制度の時には相関が見られない

その目的ならば,それでよいでしょう。

蛇足ですが,相関が認められることが優れているわけではないという反例を。
赤 で示したデータは人員と研究成果には有意な相関がある。黒で示したデータでは有意な相関はない。ただ,黒で示した方が,人員当たりの研究成果は倍くらいあ る。(たぶん,期間を通じて有能なものは有能であり続け,仕事をしないものはしない,みたいなことがあったのだろうけど)。赤は,人員が4人増えたらやっ と研究成果が1件増えるのみ。
なお,両方の直線回帰式を見ても分かれるが,人員が0になったら理論的には研究成果も0になるはずだが,切片は0に ならない。かといって,原点を通る回帰直線を考えるのもなんだかなあ。(前述の通り,相関係数を考えるのは,原点を通らない回帰直線の傾きを考えるのと同 じなので,原点を通る回帰直線を考えるとの相関係数を考えるのは同じではない)
> par(cex=1.5)
> x <- c(110, 103, 95, 109, 98, 101, 110, 97, 90, 99)
> y1 <- c(52, 54, 53, 53, 52, 49, 51, 50, 53, 48)
> y2 <- c(25, 27, 23, 29, 24, 23, 26, 24, 21, 23)
> plot(x, y1, pch=19, ylim=c(20, 60), ylab="y1 or y2")
> ans1 <- lm(y1 ~x)
> abline(ans1)
> text(92, 41, sprintf("r = %.3f; y1 = %.3f x + %.3f", cor(x, y1),
+ ans1$coefficient[2], ans1$coefficient[1]), pos=4)
> #
> points(x, y2, pch=19, col=2)
> ans2 <- lm(y2 ~x)
> abline(ans2, col=2)
> text(92, 32, sprintf("r = %.3f; y2 = %.3f x + %.3f", cor(x, y2),
+ ans2$coefficient[2], ans2$coefficient[1]), col=2, pos=4)


No.06093 Re:相関について  【藍】 2008/03/10(Mon) 00:24

早々とご回答いただき,本当にありがとうございます。
わかりやすい解説を頂き,はっと目が覚める思いです。
たしかに,制度ごとに相関があるときとないときで違いがあるということは証明されるのですが,C制度D制度のほうが優れているという証明にはならないですね。。。
そこで自分なりに考えてやってみたのですが・・・。
研究の前提として,研究員が毎日何時間同僚とのコミュニケーションに費やすかというアンケートがあり,コミュニケーション時間が多いほど,つまりはコミュニケーションを阻害しない制度であるCやDのほうが,特許が多く取れる「環境」を作れるという考え方をしておりました。
これについても検定を自分なりにかけてみました。
各年度の平均コミュニケーション時間と特許数の単回帰分析を行い,0.000(相関あり)という結果を得ました。
さらに,各制度ごとにコミュニケーション時間が異なるというために,一元配置の分散分析を行い,これについても0.000という(優位な差あり)を得ました。
この上で,先ほどの制度ごとの研究員vs特許数の単回帰分析を行うことで研究員一人当たりの成果が多いCやDのほうが制度として優れているという提案をしようと思っています。
お聞きしたい点は下記の二つです。
・統計の考え方として大きく間違っている点はないでしょうか。
・t検定を二回かけるのは間違っていますが,この場合は問題ない運び方でしょうか。
お手数をかけて申し訳ありませんが,もう少しご教授いただけないでしょうか。

No.06097 Re: 相関について  【青木繁伸】 2008/03/10(Mon) 08:13

特許数を従属変数に,研究員数,コミュニケーション時間,制度(ダミー変数として)を独立変数として重回帰分析するというのはどうでしょうか?

No.06107 Re: 相関について  【藍】 2008/03/11(Tue) 17:28

お答えいただきありがとうございます。重回帰分析を行い,ようやく検定部分にとりあえずの結論を見ました。
青木様にはなんとお礼を言ってよいかわかりません。私のような統計初心者の為にも,どうぞこれからもご活躍くださいますよう,お祈り申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る