「統計学関連なんでもあり」の過去ログ--- 042

No.10140　毎回すみません　　【好夫】　2009/06/19(Fri) 16:48

AB2つのテストを実施して，
Aの得点が高いと，Bの得点が高いかを調べるのは，相関分析で言えますか？
それともAの得点で何グループかに分けて，グループ間のBの得点の平均を
分散分析で調べればよいのでしょうか？　

No.10141　Re: 毎回すみません　　【波音】　2009/06/19(Fri) 19:02

2通りの分析が考えられるでしょう。例えばAを数学，Bを化学として考えてみましょう。

A: 数学 = {70, 80, 65, 90, 50, 70}
B: 化学 = {75, 80, 60, 85, 60, 85}

もし相関分析(回帰分析)を行うのであれば，Aを応答変数(従属変数，目的変数)とし，Bを説明変数(独立変数)としたモデルを解析することになります。言い換えれば，これは「Bが高くなれば，Aも高くなるか」という問題について考えていることになります。

　　　A = B　(Bは連続型)

一方で「AとBの平均値の差は異なるか」という問題を考えることもできるでしょう。

テスト得点 = {70, 80, 65, 90, 50, 70, 75, 80, 60, 85, 60, 85}
科目 = {数学, 数学, 数学, 数学, 数学, 数学, 化学, 化学, 化学, 化学, 化学, 化学, }

これはテスト得点を応答変数，科目を説明変数とした分散分析モデルを解析することになります。

　　　テスト得点 = 科目

以上のことをふまえて，「Aの得点が高いと，Bの得点が高いか」という問題については前者の回帰分析モデルとして解析するのが適切であるといえます。

No.10144　Re: 毎回すみません　　【好夫】　2009/06/19(Fri) 22:24

波音さんありがとうございます。しかしまだよく分かりません。

単回帰分析で出てくる標準偏回帰係数を見て，例えば.50くらいの値が出たとします。
これを見て，どうやって，「Aの得点が高いと，Bの得点が高い」を主張できるのでしょうか？

実際に，Aの得点で2群に分けて，その群のBのテストの平均の差をt検定で調べると
有意でないのですが，それでも相関係数が有意だと「Aの得点が高いと，Bの得点が高い」と主張できるのでしょうか。例えばβの値が.35くらいではどうでしょうか？

No.10147　Re: 毎回すみません　　【波音】　2009/06/20(Sat) 00:13

標準偏回帰係数が正の値で高いということは，説明変数が応答変数に対して増加的に寄与するということです。

ちなみに，AとBの相関係数と標準化偏回帰係数の値は一致します(8.005e-01 = 0.8005)。

> A <- c(70, 80, 65, 90, 50, 70)
> B <- c(75, 80, 60, 85, 60, 85)
> cor(A, B)
[1] 0.800512

> # 両変数を標準化して回帰分析をする
> summary(lm(scale(A) ~ scale(B)))

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.439e-16 2.735e-01 2.35e-15 1.0000
scale(B) 8.005e-01 2.997e-01 2.671 0.0557 .

> Aの得点で2群に分けて，その群のBのテストの平均の差をt検定で調べると

回帰モデルの解析と分散分析モデルの解析は全く別物ですから，両者の結果に関連性はないでしょう(ある場合もあるのでしょうが)。

例えば，以下のようなデータセットの場合にはb群の平均値を比較しても有意ではありません(5%の有意水準においては)。

> a <- c(30, 20, 20, 50, 60, 50)
> b <- c(45, 30, 35, 60, 60, 45)
> t.test(b[1:3], b[4:6])

Welch Two Sample t-test

t = -2.75, df = 3.938, p-value = 0.05226

しかし，相関係数を見てみると両者はかなり強い正の相関が見られます。

> cor(a, b)
[1] 0.8962248

まとめると，分散分析は「平均値の比較」をしていて，回帰分析は「関連性の分析」をしているわけです。今回の例のように，Aのテスト得点を基準にB群を別けて平均値を比較した結果と，AとBの関連性の分析結果は全く別物として考えなければなりません(そもそも扱っている問題が違うのだから)。

>　例えばβの値が.35くらいではどうでしょうか？

例えば心理学の分野では0.40から0.50くらいでも「それなりに相関がある」と主張されることが多いです。これは分野(研究内容)によるものでしょう。

No.10148　Re: 毎回すみません　　【sb】　2009/06/20(Sat) 07:30

回帰分析による回帰係数は，”傾き”の指標。
一方，
相関係数は，回帰直線に如何に”行儀よく並んでいるか”の指標。

回帰分析で目的変数を数学の得点（連続量），説明変数を化学（ダミー変数，0：良くない，1：良い）とします。回帰係数が50であったとすると，その解釈は，傾きですから，説明変数が1単位増加するときの目的変数の増加量，言い換えると，化学の得点が高い群は，低い群に較べて，数学の点数が，50点大きい，となります。

相関件数は，”行儀よさ”の指標ですから，直線上にバラツキが少なく並んでいると，大きくなります。その直線の傾きが小さくても，相関係数は大きい場合が当然あります。

> AB2つのテストを実施して，Aの得点が高いと，Bの得点が高いかを調べる

目的は，”傾き”ですか，それとも”行儀よさ”ですか。多分，知りたいのは，”傾き”ではないでしょうか。私は，好夫の場合，相関係数よりも回帰係数の方が，より目的に適っていると思います。

以上，非常に散文的（いい加減）な考え方ですが，参考まで。

No.10149　Re: 毎回すみません　　【青木繁伸】　2009/06/20(Sat) 08:31

> 相関件数は，”行儀よさ”の指標ですから，直線上にバラツキが少なく並んでいると，大きくなります。その直線の傾きが小さくても，相関係数は大きい場合が当然あります。

ここで書かれている傾きは，偏回帰係数のこと。独立変数と従属変数の単位が違ったり，そうでなくても分散が違ったりすると偏回帰係数はどのようにも変わる。単位に依存しないのが標準化偏回帰係数。けっきょく，傾きが大きいか小さいかは，標準化偏回帰係数でなければ判断できない。
標準化偏回帰係数が相関係数と同じになるのは波音さんが書いているとおり。
相関分析と回帰分析を区別するのは，「双方向（相関分析）」と「方向性（回帰分析）」の考え方の違い。

> Aの得点が高いと，Bの得点が高いか

という記述は曖昧だが

> 相関分析で言えますか？

とあるので相関係数を意図しているのだろう。
どちらが原因だ・結果だといっていないようなので，なおさら。

> Aの得点で何グループかに分けて，グループ間のBの得点の平均を分散分析で調べればよいのでしょうか？　

こちらは，やや原因と結果という考え方（実際，分散分析といっているし）ではあるが，「グループ化する」段階で情報の損失が生じるので不適切。
繰り返しになるが，相関係数の検定でも，回帰係数の検定でも，さらに，回帰の分散分析でも，決定係数（R^2=r^2）の検定でも，同じP値になる。考え方と対象統計量の解釈の差があるのみ。

なお，A，B ふたつのテストには共に誤差が含まれているので，RMA(reduced major axis の方が適しているかも知れない。

No.10151　Re: 毎回すみません　　【好夫】　2009/06/20(Sat) 13:40

みなさん
ありがとうございます。大変勉強になりました。
今後ともご指導よろしくお願いします。

No.10152　Re: 毎回すみません　　【sb】　2009/06/20(Sat) 14:08

またまた，トンデモない間違いを書き込んでしまいまして申し訳ありません。
これ以上，皆様方に迷惑をお掛けするのは本意ではありませんので，これにて，撤退します。

No.10153　Re: 毎回すみません　　【好夫】　2009/06/20(Sat) 16:10

Rで出力した結果の解釈のし方を知りたいのですが，
回帰分析では，βと大きさと説明率Rの2乗の値で，何％説明できるとか言えると
思うのですが，下記の出力結果から，傾きがいくつぐらいだと予測力が高い，低い
と言えるのでしょうか？　

$RMAslope
slope SE[slope] 95% LCL 95% UCL
2.1193664 0.3324959 1.3672085 2.8715243

$RMAintercept
intercept SE[int.] 95% LCL 95% UCL
12.19378 10.54975 -11.67141 36.05898

No.10156　Re: 毎回すみません　　【青木繁伸】　2009/06/20(Sat) 20:10

私の作ったプログラムですね。
slope と intercept それぞれの推定値と，SE，および95%信頼限界値（下側と上側）です。
説明率 R^2 は存在しません。決定係数 R^2 は，直線回帰のときのみに定義されるものです（上に書きましたけど，独立変数が一つだけの場合には R^2=r^2 です）。

No.10158　Re: 毎回すみません　　【好夫】　2009/06/21(Sun) 11:47

青木先生

そうなると，slope（傾き）の大きさが「1」に近いほど，予測力が高いと思うのですが，いくつ以上だと「高い」とか「低い」とか目安はあるのでしょうか？

No.10163　Re: 毎回すみません　　【青木繁伸】　2009/06/21(Sun) 21:23

> そうなると，slope（傾き）の大きさが「1」に近いほど，予測力が高いと思うのですが

slope の値の範囲が0～1などということがあるとお思いでしょうか？どこにそう言うことが書いてあったのでしょうか？
実際，あなたが計算した slope は 2.1193664 だったじゃないですか。

> いくつ以上だと「高い」とか「低い」とか目安はあるのでしょうか？

ないでしょうね。

No.10164　Re: 毎回すみません　　【青木繁伸】　2009/06/21(Sun) 21:52

かなり前のやりとりについてですが，今更ながら

> 単回帰分析で出てくる標準偏回帰係数を見て，例えば.50くらいの値が出たとします。
これを見て，どうやって，「Aの得点が高いと，Bの得点が高い」を主張できるのでしょうか？

質疑応答を読んでいますか？

標準化偏回帰係数は，相関係数と同じ値です。

[0.5位の値が出たとします」

出たら，それに基づいて，検定すればよいだけです。これも，スレッド中に出ていますけど，相関係数の2乗は，決定係数で，片方の変数がもう一方の変数を説明する割合になります。相関係数が0.5なら，片方の変数がもう一方の変数を説明する割合（決定係数）は25％です。少ないですね。「どうやって，「Aの得点が高いと，Bの得点が高い」を主張できるのでしょうか？」というのは，この相関係数の検定をやったかどうかでしょう。しかし，決定係数が25％というのが，どれほどの意味を持つかは別の基準で（実際的な立場で）考えられるべきでしょう。

> 実際に，Aの得点で2群に分けて，その群のBのテストの平均の差をt検定で調べると
有意でないのですが，それでも相関係数が有意だと「Aの得点が高いと，Bの得点が高い」と主張できるのでしょうか。例えばβの値が.35くらいではどうでしょうか？

上に書いたことにもとづいて，もう一度よく考えてみましょう。基本があるのですから，毎回毎回問いかけるのは無意味です。

No.10175　Re: 毎回すみません　　【好夫】　2009/06/22(Mon) 22:28

青木先生

＞しかし，決定係数が25％というのが，どれほどの意味を持つかは別の基準で（実際的な立場で）考えられるべきでしょう。

ここの所に何か基準があるのかと思っていたのです。先生のご説明よく分かりました。RMAというものも，もう少し基本を勉強してから投稿するようにします。申し訳けありませんでした。