独立性の検定     Last modified: Nov 07, 2002

 2 変数 A,B についてのクロス集計表(分割表)に基づき,2 変数間に関連があるかどうかを検定する。

 $\chi^2$ 分布を用いるので,「$\chi^2$ 検定」という通称を持つ。


例題

 「表 1 において,血液型と疾患に関連があるかどうか検定しなさい。」

表 1.疾患別の血液型の分布(架空例)
血液型 胃潰瘍患者  胃癌患者   健康者   合計
A 型 16 12 36 64
B 型 12 5 20 37
O 型 15 11 24 50
AB 型 9 2 1 12
合計 52 30 81 163


検定手順

  1. 前提

  2. 2 個の変数 A,B がそれぞれ $k$ 個,$m$ 個のカテゴリーを持ち,$k \times m$ 個の桝目を持つ集計表を考える(表 2, 3)。

    例題では,$k = 4$,$m = 3$ である。

    表 2.$k \times m$ 分割表
    要因 B
    $B_{1}$ $B_{2}$ $\dots$ $B_{j}$ $\dots$ $B_{m}$ 合計
    要因 A$A_{1}$


    $O_{1j}$

    $n_{1\cdot}$
    $A_{2}$


    $O_{2j}$

    $n_{2\cdot }$





    $A_{i}$ $O_{i1}$ $O_{i2}$ $\dots$ $O_{ij}$ $\dots$ $O_{im}$ $n_{i\cdot }$





    $A_{k}$


    $O_{kj}$

    $n_{k\cdot }$
    合計 $n_{\cdot 1}$ $n_{\cdot 2}$ $\dots$ $n_{\cdot j}$ $\dots$ $n_{\cdot m}$ $n$
       
    表 3.$2 \times 2$ 分割表
    要因 B
    $B_{1}$ $B_{2}$ 合計
    要因 A $A_{1}$ $a$ $b$ $e$
    $A_{2}$ $c$ $d$ $f$
    合計 $g$ $h$ $n$

  3. 表 2 のような $k \times m$ 分割表で,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの観察値を $O_{ij}$ とする。
    また,$n_{i\cdot }$ を第 $i$ 行の合計,$n_{\cdot j}$ を第 $j$ 列の合計とする。

  4. 帰無仮説のもとでは,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの期待値は次式で表される。 \[ E_{ij} = \frac{n_{i\cdot}\ n_{\cdot j}} {n} \] 例題では,O 型の胃癌患者の期待値は,$E_{32} = 50\cdot 30 / 163 = 9.202$ 等のように計算される。

  5. 全ての桝目について $\displaystyle \frac {( O_{ij} - E_{ij} ) ^{2}} {E_{ij}}$ の合計をとったものを $\chi^2_0$ とする。 \[ \chi^2_0 = \sum_{i=1}^k \sum_{j=1}^m \frac{\left( O_{ij}-E_{ij} \right)^2} {E_{ij}} \] 例題では,$\chi^2_0 ≒ 13.713$ となる。
  6. $\chi^2_0$ は自由度が $( k - 1 ) \times ( m - 1 )$ の $\chi^2$ 分布に従う。

    例題では,自由度は $( 4 - 1 ) \times ( 3 - 1 ) = 6$ である。

  7. 有意確率を $P= \Pr\{ \chi^2 \geqq \chi^2_0 \}$ とする。
    $\chi^2$ 分布表,または $\chi^2$ 分布の上側確率の計算を参照すること。

    例題では,自由度 $6$ の $\chi^2$ 分布において,$\Pr\{\chi^2 \geqq 12.59\}= 0.05$ であるから,$P = \Pr\{\chi^2 \geqq 13.713\}\lt 0.05$ である(正確な有意確率:$P = 0.03301$)。

  8. 帰無仮説の採否を決める。

    例題では,有意水準 $5\%$ で検定を行うとすれば($\alpha = 0.05$),$P \lt \alpha$ であるから,帰無仮説を棄却する。すなわち,「血液型と疾患の間に関連がある」と結論する(架空例であったことを思い出してくださいね)。

・ R で計算してみる

$2 \times 2$ 分割表における特別な方法

いくつかの注意点


演習問題−I

 「13 人の学生について,自動車運転免許を持っているかどうかを調査した結果が,表 4 のようにまとめられた。男女で免許保有率に差があるかどうか検定しなさい。」

表 4.性別の運転免許保有状況(その 1)

あり なし 合計
男子 4 2 6
女子 1 6 7
合計 5 8 13


問題1 帰無仮説はどれか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。

選択肢 a:性別で運転免許の保有率に差はない b:性別で運転免許の保有率に差がある
解答欄:    

問題2 $\chi^2$ 検定統計量を求めなさい。答えは小数点以下 4 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。

解答欄:    

問題3 求められた $\chi^2$ 検定統計量は,自由度いくつの $\chi^2$ 分布に従うか,答えを解答欄に記入し,送信ボタンをクリックしなさい。

解答欄:    

問題4 有意確率は 0.05 より大きいか小さいか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。

選択肢 a:0.05 より大きい b:0.05 より小さい
解答欄:    

問題5 有意水準 $5\%$ で検定を行うとき,帰無仮説は棄却できるかできないか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。

選択肢 a:棄却できる b:棄却できない
解答欄:    

問題6 最終的な結論はどうなるか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。

選択肢 a:性別で運転免許の保有率に差があるとはいえない b:性別で運転免許の保有率に差がある
解答欄:    
・ R で計算してみる

演習問題−II

 「表 5 は,表 4 の度数をすべて 10 倍したものである。男女で免許保有率に差があるかどうか検定しなさい。」

表 5.性別の運転免許保有状況(その 2)

あり なし 合計
男子 40 20 60
女子 10 60 70
合計 50 80 130


問題1 $\chi^2$ 検定統計量を求めなさい。答えは小数点以下 4 桁目で四捨五入した値を解答欄に記入し,送信ボタンをクリックしなさい。

解答欄:    

問題2 有意水準 $5\%$ で検定を行うとき,帰無仮説は棄却できるかできないか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。

選択肢 a:棄却できる b:棄却できない
解答欄:    

問題3 演習問題−I と II の結果を比べてみなさい。なぜこのようなことになるのか考えなさい。

・ R で計算してみる

解説(コメント)


演習問題−III

 「演習問題−I および II を,「二群の比率の差の検定」を用いて解きなさい。有意確率はどのようになるか。a,b のいずれかを解答欄に記入し,送信ボタンをクリックしなさい。(計算は有効桁数を十分にとり,正確な有意確率を求めるために正規分布の上側確率の計算および $\chi^2$分布の上側確率の計算を使用しなさい)

選択肢 a:誤差の範囲でほぼ同じ値になった b:全く異なった値になった
解答欄:    
・ R で計算してみる

解説(コメント)


応用問題


・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI