例題:
「表 1 において,変数 $X$と変数 $Y$の間のピアソンの積率相関係数を求めなさい。」
<
$i$ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
変数 $X_{i}$ | 2.8 | 3.4 | 3.6 | 5.8 | 7.0 | 9.5 | 10.2 | 12.3 | 13.2 | 13.4 |
変数 $Y_{i}$ | 0.6 | 3.0 | 0.4 | 1.5 | 15.0 | 13.4 | 7.6 | 19.8 | 18.3 | 18.9 |
計算手順:
\[ \begin{align*} r &= \frac{\text{変数}X\text{と変数}Y\text{の共分散}}{\text{変数}X\text{の標準偏差} \times \text{変数}Y\text{の標準偏差}Y} \\ &= \frac{\displaystyle \frac{1}{n-1}\sum_{i=1}^n \left ( X_i-\bar{X} \right )\ \left ( Y_i-\bar{Y} \right )}{\sqrt{\displaystyle \frac{1}{n-1}\sum_{i=1}^n \left ( X_i-\bar{X} \right )^2} \sqrt{\displaystyle \frac{1}{n-1}\sum_{i=1}^n \left ( Y_i-\bar{Y} \right )^2}} \end{align*} \] 例題では,共分散 $Cov._{XY} = 30.04222222$,変数 $X$の標準偏差 $S.D._{X} = 4.150448436$,変数 $Y$の標準偏差 $S.D._{Y} = 8.082938135$ より,$r = 0.895504509$ となる。
注:
相関係数の絶対値 | 解釈 |
---|---|
$0.0$〜$0.2$ | ほとんど相関関係がない |
$0.2$〜$0.4$ | やや相関関係がある |
$0.4$〜$0.7$ | かなり相関関係がある |
$0.7$〜$1.0$ | 強い相関関係がある |
*1:このようなデータは測定の誤り,誤記,誤入力等による場合と,実際にそのような値が存在する場合がある。多くの場合,異常値と呼ばれるが,外れ値と呼ぶ方が適切な場合もある。
回帰直線の傾き $a$ と切片 $b$ は,次式で求めることができる。 \[ \begin{align*} a &= \frac{\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )\ \left ( Y_i-\bar{Y} \right )} {\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2} \\ b &= \bar{Y}-a\ \bar{X} \end{align*} \]
図 1.変数 $X$を用いて変数 $Y$を予測する回帰直線 |
---|
独立変数が $X$ という値をとるとき,予測値 $\hat{Y}$ の期待値 $\mu$ の $(1-\alpha)100\%$ 信頼限界は, 自由度が $\nu= n - 2$ の $t$ 分布において,上側確率が $\alpha\,/\,2$ になる値を $t_{\alpha/2,\ \nu}$,誤差分散を $V_{e}$ としたとき,以下のように求めることができる。
\[ \begin{align*} & \hat{Y} - t_{\alpha/2,\ \nu}\ \sqrt{V_{e}} \sqrt{\frac{1}{n}+\frac{ \left ( X-\bar{X} \right )^2}{\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2}} \tag{下限値}\\ & \hat{Y} + t_{\alpha/2,\ \nu}\ \sqrt{V_{e}} \sqrt{\frac{1}{n}+\frac{ \left ( X-\bar{X} \right )^2}{\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2}} \tag{上限値} \end{align*} \] ちなみに,$V_{e}$ は回帰の分散分析における「残差平均平方」のことである。 \[ V_e = \frac{1}{n-2}\ \left [ \sum_{i=1}^n \left ( Y_i-\bar{Y} \right )^2 - \frac{\left \{ \displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )\ \left ( Y_i-\bar{Y} \right ) \right \}^2} {\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2} \right ] \] 母集団に属する新たな成員 $X$ に対する予測値の信頼区間は,以下のようになる。 \[ \begin{align*} & \hat{Y} - t_{\alpha/2,\ \nu}\ \sqrt{V_{e}} \sqrt{1+\frac{1}{n}+\frac{ \left ( X-\bar{X} \right )^2}{\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2}} \tag{下限値}\\ & \hat{Y} + t_{\alpha/2,\ \nu}\ \sqrt{V_{e}} \sqrt{1+\frac{1}{n}+\frac{ \left ( X-\bar{X} \right )^2}{\displaystyle \sum_{i=1}^n \left ( X_i-\bar{X} \right )^2}} \tag{上限値} \end{align*} \]
演習問題−1:
「表 3 は 2 変数 $x$,$y$ の 10 組のデータです。$(21, 25)$ は他のデータ組と異なり,極端に大きな値をとる。この外れ値を含めた場合と含めない場合について,ピアソンの積率相関係数,スピアマンの順位相関係数,ケンドールの順位相関係数を計算し,相互に比較しなさい。」
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
$X_{i}$ | 3.9 | 0.8 | 1.9 | 8.7 | 4.1 | 1.2 | 2.9 | 9.5 | 7.8 | 21 |
$Y_{i}$ | 9.5 | 7.3 | 5.4 | 1.3 | 3.3 | 2.9 | 5.0 | 0.4 | 4.9 | 25 |
問題1 散布図を描きなさい。
問題2 外れ値を含めた場合のピアソンの積率相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題3 外れ値を除いた場合のピアソンの積率相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題4 外れ値を含めた場合のスピアマンの順位相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題5 外れ値を除いた場合のスピアマンの順位相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題6 外れ値を含めた場合のケンドールの順位相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題7 外れ値を除いた場合のケンドールの順位相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
演習問題−2:
「表 4 は 2 変数 $x$,$y$ の 10 組のデータです。ピアソンの積率相関係数と,スピアマンの順位相関係数を計算し,比較しなさい。」
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
$X_{i}$ | 0.4 | 1.0 | 1.2 | 2.2 | 2.8 | 3.7 | 5.5 | 6.9 | 7.6 | 8.1 |
$Y_{i}$ | 0.8 | 2.3 | 3.2 | 3.8 | 4.4 | 4.6 | 4.9 | 6.1 | 8.0 | 10.1 |
問題1 散布図を描きなさい。
問題2 ピアソンの積率相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題3 スピアマンの順位相関係数を求めなさい。答えは小数点以下 6 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
演習問題−3:
「表 5 に示すデータの散布図を描き,回帰直線を求め図示しなさい。」
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
変数 $X_{i}$ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
変数 $Y_{i}$ | 2 | 4 | 1 | 3 | 7 | 6 | 5 | 10 | 8 | 9 |
応用問題: