独立性の検定 Last modified: Nov 07, 2002
2 変数 A,B についてのクロス集計表(分割表)に基づき,2 変数間に関連があるかどうかを検定する。
$\chi^2$ 分布を用いるので,「$\chi^2$ 検定」という通称を持つ。
例題:
「表 1 において,血液型と疾患に関連があるかどうか検定しなさい。」
表 1.疾患別の血液型の分布(架空例)
血液型 | 胃潰瘍患者 | 胃癌患者 | 健康者 | 合計 |
A 型 | 16 | 12 | 36 | 64 |
B 型 | 12 | 5 | 20 | 37 |
O 型 | 15 | 11 | 24 | 50 |
AB 型 | 9 | 2 | 1 | 12 |
合計 | 52 | 30 | 81 | 163 |
検定手順:
- 前提
- 帰無仮説 $H_0$:「2 変数は独立である(関連がない)」。
- 対立仮説 $H_1$:「2 変数は独立ではない(関連がある)」。
- 有意水準 $\alpha$ で両側検定を行う($k \times m$ 分割表では必ず両側検定である。片側検定は理論上あり得ない。ただし,$2 \times 2$ 分割表では関連の方向性を決められるので,片側検定もあり得る)。
- 2 個の変数 A,B がそれぞれ $k$ 個,$m$ 個のカテゴリーを持ち,$k \times m$ 個の桝目を持つ集計表を考える(表 2, 3)。
例題では,$k = 4$,$m = 3$ である。
表 2.$k \times m$ 分割表
| 要因 B |
|
$B_{1}$ | $B_{2}$ | $\dots$ | $B_{j}$ | $\dots$ | $B_{m}$ | 合計 |
要因 A | $A_{1}$ |
|
|
| $O_{1j}$ |
|
| $n_{1\cdot}$ |
$A_{2}$ |
|
|
| $O_{2j}$ |
|
| $n_{2\cdot }$ |
: |
|
|
| : |
|
| : |
$A_{i}$ | $O_{i1}$ | $O_{i2}$ | $\dots$ | $O_{ij}$ | $\dots$ | $O_{im}$ | $n_{i\cdot }$ |
: |
|
|
| : |
|
| : |
$A_{k}$ |
|
|
| $O_{kj}$ |
|
| $n_{k\cdot }$ |
| 合計 | $n_{\cdot 1}$ | $n_{\cdot 2}$ | $\dots$ | $n_{\cdot j}$ | $\dots$ | $n_{\cdot m}$ | $n$ |
|
|
表 3.$2 \times 2$ 分割表
| 要因 B |
|
$B_{1}$ | $B_{2}$ | 合計 |
要因 A | $A_{1}$ | $a$ | $b$ | $e$ |
$A_{2}$ | $c$ | $d$ | $f$ |
| 合計 | $g$ | $h$ | $n$ |
|
- 表 2 のような $k \times m$ 分割表で,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの観察値を $O_{ij}$ とする。
また,$n_{i\cdot }$ を第 $i$ 行の合計,$n_{\cdot j}$ を第 $j$ 列の合計とする。
- 帰無仮説のもとでは,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの期待値は次式で表される。
\[
E_{ij} = \frac{n_{i\cdot}\ n_{\cdot j}} {n}
\]
例題では,O 型の胃癌患者の期待値は,$E_{32} = 50\cdot 30 / 163 = 9.202$ 等のように計算される。
- 全ての桝目について $\displaystyle \frac
{( O_{ij} - E_{ij} ) ^{2}} {E_{ij}}$ の合計をとったものを $\chi^2_0$ とする。
\[
\chi^2_0 = \sum_{i=1}^k \sum_{j=1}^m \frac{\left( O_{ij}-E_{ij} \right)^2} {E_{ij}}
\]
例題では,$\chi^2_0 ≒ 13.713$ となる。
- $\chi^2_0$ は自由度が $( k - 1 ) \times ( m - 1 )$ の $\chi^2$ 分布に従う。
例題では,自由度は $( 4 - 1 ) \times ( 3 - 1 ) = 6$ である。
- 有意確率を $P= \Pr\{ \chi^2 \geqq \chi^2_0 \}$ とする。
$\chi^2$ 分布表,または $\chi^2$ 分布の上側確率の計算を参照すること。
例題では,自由度 $6$ の $\chi^2$ 分布において,$\Pr\{\chi^2 \geqq 12.59\}= 0.05$ であるから,$P = \Pr\{\chi^2 \geqq 13.713\}\lt 0.05$ である(正確な有意確率:$P = 0.03301$)。
- 帰無仮説の採否を決める。
- $P \gt \alpha$ のとき,帰無仮説は棄却できない。「$2$ 変数は独立でないとはいえない(関連があるとはいえない)」。
- $P \leqq \alpha$ のとき,帰無仮説を棄却する。「$2$ 変数は独立ではない(関連がある)」。
例題では,有意水準 $5\%$ で検定を行うとすれば($\alpha = 0.05$),$P \lt \alpha$ であるから,帰無仮説を棄却する。すなわち,「血液型と疾患の間に関連がある」と結論する(架空例であったことを思い出してくださいね)。
R で計算してみる
$2 \times 2$ 分割表における特別な方法
- 簡便公式:表 3 のような $2 \times 2$ 分割表における独立性の検定は,次式を用いることにより若干簡単になる。
\[
\chi^2_0 = \frac{n\ (a\, d-b\, c)^2} {e\, f\, g\, h}
\]
- 連続性の補正(イエーツの補正):分割表から得られる $\chi^2_0$ は跳び跳びの値しかとらない。一方,$\chi^2$ 分布は連続分布である。
このため,$2 \times 2$ 分割表の場合には連続性の補正をしたほうがよい。
\[
\chi^2_0 = \frac{n\ \left(\left |\ a\, d-b\, c\ \right | - n\ /\ 2 \right)^2} {e\, f\, g\, h}
\]
ただし,$\left |\ a\, d-b\, c\ \right | \leqq n\ /\ 2$ のときは,$\chi^2_0 = 0$ とする。
いくつかの注意点
演習問題−I:
「13 人の学生について,自動車運転免許を持っているかどうかを調査した結果が,表 4 のようにまとめられた。男女で免許保有率に差があるかどうか検定しなさい。」
表 4.性別の運転免許保有状況(その 1)
| あり | なし | 合計 |
男子 | 4 | 2 | 6 |
女子 | 1 | 6 | 7 |
合計 | 5 | 8 | 13 |
問題1 帰無仮説はどれか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。
問題2 $\chi^2$ 検定統計量を求めなさい。答えは小数点以下 4 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題3 求められた $\chi^2$ 検定統計量は,自由度いくつの $\chi^2$ 分布に従うか,答えを解答欄に記入し,送信ボタンをクリックしなさい。
問題4 有意確率は 0.05 より大きいか小さいか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。
問題5 有意水準 $5\%$ で検定を行うとき,帰無仮説は棄却できるかできないか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。
問題6 最終的な結論はどうなるか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。
R で計算してみる
演習問題−II:
「表 5 は,表 4 の度数をすべて 10 倍したものである。男女で免許保有率に差があるかどうか検定しなさい。」
表 5.性別の運転免許保有状況(その 2)
| あり | なし | 合計 |
男子 | 40 | 20 | 60 |
女子 | 10 | 60 | 70 |
合計 | 50 | 80 | 130 |
問題1 $\chi^2$ 検定統計量を求めなさい。答えは小数点以下 4 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。
問題2 有意水準 $5\%$ で検定を行うとき,帰無仮説は棄却できるかできないか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。
問題3 演習問題−I と II の結果を比べてみなさい。なぜこのようなことになるのか考えなさい。
R で計算してみる
解説(コメント)
演習問題−III:
「演習問題−I および II を,「二群の比率の差の検定」を用いて解きなさい。有意確率はどのようになるか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。(計算は有効桁数を十分にとり,正確な有意確率を求めるために正規分布の上側確率の計算および $\chi^2$分布の上側確率の計算を使用しなさい)
R で計算してみる
解説(コメント)
応用問題:
直前のページへ戻る E-mail to Shigenobu AOKI