$\kappa$ 統計量( 一致率の検定 )     Last modified: Nov 07, 2002

 二人の評定者の判定結果がどの程度一致しているかを表す指標と,一致率に関する検定と推定を行う。


例題

 「二人の評定者が判定した結果が表 1 のようにまとめられた。評定が同じかどうか検定しなさい。」

表 1.二人の評定者の評定結果
評定者B
 $B_{1}$   $B_{2}$   $B_{3}$   合計 
 評定者A   $A_{1}$  12 6 1 19
 $A_{2}$  3 19 4 26
 $A_{3}$  2 5 34 41
 合計  17 30 39 86


検定手順:

  1. 前提

  2. 評定者 A,B の評定結果を表 2 のようにまとめる。$O_{ij}$ は,評定者 A が $i$ という評定,評定者 B が $j$ という評定をしたケース数である。計算に必要なのは対角線上の桝目の期待値(色を付けたもの)だけである。

    表 2.二人の評定者の評定結果
       $k \times k$ 分割表( 観察数 )
    評定者B
     $B_{1}$   $B_{2}$   $\dots$   $B_{k}$   合計 
     評定者A   $A_{1}$  $O_{11}$ $O_{12}$  $\dots$  $O_{1k}$ $O_{1\cdot}$
     $A_{2}$  $O_{21}$ $O_{22}$  $\dots$  $O_{2k}$ $O_{2\cdot}$
     $\dots$ 
     $A_{k}$  $O_{k1}$ $O_{k2}$  $\dots$  $O_{kk}$ $O_{k\cdot}$
     合計  $O_{\cdot1}$ $O_{\cdot2}$  $\dots$  $O_{\cdot k}$ $n$

  3. 評定者 A,B の評定が独立であると仮定すると,各桝目の期待値 $E_{ij}$ は次式のように表される。計算に必要なのは対角線上の桝目の期待値(色を付けたもの)だけである。 \[ E_{ij} = \frac{O_{\cdot i}\ O_{j\cdot}}{n} \]
    表 3.二人の評定者の評定結果
       $k \times k$ 分割表( 期待値 )
    評定者B
     $B_{1}$   $B_{2}$   $\dots$   $B_{k}$   合計 
     評定者A   $A_{1}$  $E_{11}$ $E_{12}$  $\dots$  $E_{1k}$ $E_{1\cdot}$
     $A_{2}$  $E_{21}$ $E_{22}$  $\dots$  $E_{2k}$ $E_{2\cdot}$
     $\dots$ 
     $A_{k}$  $E_{k1}$ $E_{k2}$  $\dots$  $E_{kk}$ $E_{k\cdot}$
     合計  $E_{\cdot1}$ $E_{\cdot2}$  $\dots$  $E_{\cdot k}$ $n$

    例題では,$E_{11}=\displaystyle \frac{17\cdot19}{86}=3.756$,$E_{22}=\displaystyle \frac{30\cdot26}{86}=9.070$,$E_{33}=\displaystyle \frac{39\cdot41}{86}=18.593$ となる。

    表 4.二人の評定者の評定結果
    評定者B
     $B_{1}$   $B_{2}$   $B_{3}$   合計 
     評定者A   $A_{1}$  3.756 6.628 8.616 19
     $A_{2}$  5.140 9.070 11.791 26
     $A_{3}$  8.105 14.302 18.593 41
     合計  17 30 39 86

  4. 表 2 での評定者 A,B の一致率 $P_{o}$,$P_{e}$ は,次式のように表せる。 \[ \begin{align*} P_o & = \frac{\displaystyle \sum_{i=1}^k O_{ii}}{n} \\[5pt] P_e & = \frac{\displaystyle \sum_{i=1}^k E_{ii}}{n} \end{align*} \] 例題では,
     $P_{o} = \displaystyle \frac{ 12 + 19 + 34 } {86} = 0.75581$,

     $P_{e} = \displaystyle \frac{\displaystyle \frac{17\cdot19}{86} + \frac{30\cdot26}{86} + \frac{39\cdot41}{86} }{86} = 0.36533$ である。

  5. $Q_{o} = 1 - P_{o}$,$Q_{e} = 1 - P_{e}$ とすると,$\kappa$ 統計量は次式で求められる。 \[ \kappa = \frac{P_o-P_e}{1-P_e}=1-\frac{Q_o}{Q_e} \] 例題では,$Q_{o} = 1 - 0.75581 = 0.24419$,$Q_{e} = 1 - 0.36533 = 0.63467$,

    $\kappa = \displaystyle \frac{0.75581 - 0.36533} {1 - 0.36533} ≒ 0.61525$ である。

  6. $\kappa$ の標準誤差は $2$ 種類定義される。$1$ つは,$\kappa$ の信頼区間を求めるための $\sigma_{\kappa}$,もう $1$ つは $\kappa$ が $0$ であるかどうかの検定を行うための $\sigma_{\kappa0}$ である。 \[ \begin{align*} \sigma_\kappa & = \sqrt{\frac{P_o\ Q_o}{n\ Q_e^2}} \\[5pt] \sigma_{\kappa 0} & = \sqrt{\frac{P_e}{n\ Q_e}} \end{align*} \] 例題では,$\sigma_{\kappa} = 0.07299$,$\sigma_{\kappa0} = 0.08181$ である。

  7. $\kappa$ 統計量の $( 1 - \alpha ) 100 \%$ 信頼区間は,上側確率が $\alpha\, /\, 2$ に対応する正規分布のパーセント点を $Z_{\alpha\, /\, 2}$ とすると,次式で表される。 \[ \kappa \pm Z_{\alpha\, /\, 2} \times \sigma_\kappa \] 例題では,$95\%$ 信頼限界を求めるので $\alpha = 0.05$,したがって $Z_{\alpha\, /\, 2} = 1.96$ であるから,$0.61525 \pm 1.96 \times 0.07299$,すなわち信頼区間は $[ 0.47219, 0.75831 ]$ である。

  8. $\kappa$ が $0$ であるかどうかの検定は,次式で求められる $Z$ が,正規分布に従うことを利用する。 \[ Z = \frac{\kappa }{\sigma_{\kappa 0}} \] 例題では,$Z = \displaystyle \frac{0.61525}{0.08181} = 7.52047$ となる。

  9. 有意確率を $P = \Pr\{|\,Z\,|\geqq Z_{0} \}$ とする。
    正規分布表,または正規分布の上側確率の計算を参照すること。

    例題では,$P \lt 0.0001$ である。

  10. 帰無仮説の採否を決める。

    例題では,有意水準 $5\%$ で検定を行うとすれば($\alpha = 0.05$),$P \lt \alpha$ であるから,帰無仮説を棄却する。すなわち,「評定結果は一致している」という結論になる。

・ R で計算してみる


重み付け $\kappa$ 統計量

  1. 上述の重み付けしない $\kappa$ 統計量は,実際には対角線上の桝目( すなわち,両評定者が一致した評定をした場合 )の重みを $0$,非対角線上の桝目( 評定が異なる場合 )の重みを $1$ とした重み付け $\kappa$ 統計量である。

    もし,評定者 A が $1$ と評定し評定者 B が $2$ と評定した場合と,評定者 A が $1$ と評定し評定者 B が $3$ と評定した場合には,不一致の程度が異なると考える場合には,より不一致であると考える桝目の重みを大きくすればよい。

    各桝目の重みを $W_{ij} \ ( W_{ii} = 0, W_{ij} \gt 0 )$ としたときは,重み付け $\kappa$ 統計量は以下のように定義される。 \[ \begin{align*} Q_{ow} & = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}\ O_{ij}} {n}, \ \ \ \ \ Q_{ow^2} = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}^2\ O_{ij}} {n} \\[5pt] Q_{ew} & = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}\ E_{ij}} {n}, \ \ \ \ \ Q_{ew^2} = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}^2\ E_{ij}} {n} \\[5pt] k_w & = 1-\frac{Q_{ow}}{Q_{ew}} \\[5pt] \sigma_{\kappa_w} & = \sqrt{\frac{Q_{ow^2} - Q_{ow}^2}{n\ Q_{ew}^2}} \\[5pt] \sigma_{\kappa_{w_0}} & = \sqrt{\frac{Q_{ew^2} - Q_{ew}^2}{n\ Q_{ew}^2}} \end{align*} \]

  2. $\kappa_{w}$ の信頼区間,$\kappa_{w} = 0$ の検定は重み付けなしの場合と同様に行う。

    例題では,表 5 のような重みを付けて解析してみた。結果は以下の通り。

    表 5.二人の評定者の違いに対する重み
    評定者B
     $B_{1}$   $B_{2}$   $B_{3}$ 
     評定者A   $A_{1}$  -- 1 3
     $A_{2}$  1 -- 1
     $A_{3}$  3 1 --
    κw ・・・・・・・・・・ 0.6932629
    sigmaκw ・・・・・・・・ 0.0686574
    sigmaκw0 ・・・・・・・ 0.1126106
    Z値 ・・・・・・・・・ 6.1562841
    有意確率 ・・・・・ < 0.0000001 **
    95%信頼区間 [ 0.558697 , 0.827829 ]

・ R で計算してみる


演習問題


応用問題


・ 計算プログラム [R] [Python]
・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI