κ 統計量（一致率の検定）

$\kappa$ 統計量（一致率の検定）　　　　　Last modified: Nov 07, 2002

　二人の評定者の判定結果がどの程度一致しているかを表す指標と，一致率に関する検定と推定を行う。

例題：

　「二人の評定者が判定した結果が表 1 のようにまとめられた。評定が同じかどうか検定しなさい。」

表 1．二人の評定者の評定結果
		$B_{1}$	$B_{2}$	$B_{3}$	合計
		評定者B
評定者A	$A_{1}$	12	6	1	19
	$A_{2}$	3	19	4	26
	$A_{3}$	2	5	34	41
	合計	17	30	39	86

検定手順:

前提
- 帰無仮説 $H_0$：「一致率が $0$ である（評定結果は一致していない）」。
- 対立仮説 $H_1$：「一致率は $0$ ではない（評定結果は一致している）」。
- 有意水準 $\alpha$ で両側検定を行う（片側検定も定義できる）。

評定者 A，B の評定結果を表 2 のようにまとめる。$O_{ij}$ は，評定者 A が $i$ という評定，評定者 B が $j$ という評定をしたケース数である。計算に必要なのは対角線上の桝目の期待値（色を付けたもの）だけである。

表 2．二人の評定者の評定結果
　　　$k \times k$ 分割表（観察数）
		$B_{1}$	$B_{2}$	$\dots$	$B_{k}$	合計
		評定者B
評定者A	$A_{1}$	$O_{11}$	$O_{12}$	$\dots$	$O_{1k}$	$O_{1\cdot}$
	$A_{2}$	$O_{21}$	$O_{22}$	$\dots$	$O_{2k}$	$O_{2\cdot}$
	：	：	：	$\dots$	：	：
	$A_{k}$	$O_{k1}$	$O_{k2}$	$\dots$	$O_{kk}$	$O_{k\cdot}$
	合計	$O_{\cdot1}$	$O_{\cdot2}$	$\dots$	$O_{\cdot k}$	$n$

評定者 A，B の評定が独立であると仮定すると，各桝目の期待値 $E_{ij}$ は次式のように表される。計算に必要なのは対角線上の桝目の期待値（色を付けたもの）だけである。 \[ E_{ij} = \frac{O_{\cdot i}\ O_{j\cdot}}{n} \]

表 3．二人の評定者の評定結果
　　　$k \times k$ 分割表（期待値）
		$B_{1}$	$B_{2}$	$\dots$	$B_{k}$	合計
		評定者B
評定者A	$A_{1}$	$E_{11}$	$E_{12}$	$\dots$	$E_{1k}$	$E_{1\cdot}$
	$A_{2}$	$E_{21}$	$E_{22}$	$\dots$	$E_{2k}$	$E_{2\cdot}$
	：	：	：	$\dots$	：	：
	$A_{k}$	$E_{k1}$	$E_{k2}$	$\dots$	$E_{kk}$	$E_{k\cdot}$
	合計	$E_{\cdot1}$	$E_{\cdot2}$	$\dots$	$E_{\cdot k}$	$n$

例題では，$E_{11}=\displaystyle \frac{17\cdot19}{86}=3.756$，$E_{22}=\displaystyle \frac{30\cdot26}{86}=9.070$，$E_{33}=\displaystyle \frac{39\cdot41}{86}=18.593$ となる。

表 4．二人の評定者の評定結果
		$B_{1}$	$B_{2}$	$B_{3}$	合計
		評定者B
評定者A	$A_{1}$	3.756	6.628	8.616	19
	$A_{2}$	5.140	9.070	11.791	26
	$A_{3}$	8.105	14.302	18.593	41
	合計	17	30	39	86

表 2 での評定者 A，B の一致率 $P_{o}$，$P_{e}$ は，次式のように表せる。 \[ \begin{align*} P_o & = \frac{\displaystyle \sum_{i=1}^k O_{ii}}{n} \\[5pt] P_e & = \frac{\displaystyle \sum_{i=1}^k E_{ii}}{n} \end{align*} \] 例題では，
　$P_{o} = \displaystyle \frac{ 12 + 19 + 34 } {86} = 0.75581$，

　$P_{e} = \displaystyle \frac{\displaystyle \frac{17\cdot19}{86} + \frac{30\cdot26}{86} + \frac{39\cdot41}{86} }{86} = 0.36533$ である。
$Q_{o} = 1 - P_{o}$，$Q_{e} = 1 - P_{e}$ とすると，$\kappa$ 統計量は次式で求められる。 \[ \kappa = \frac{P_o-P_e}{1-P_e}=1-\frac{Q_o}{Q_e} \] 例題では，$Q_{o} = 1 - 0.75581 = 0.24419$，$Q_{e} = 1 - 0.36533 = 0.63467$，

$\kappa = \displaystyle \frac{0.75581 - 0.36533} {1 - 0.36533} ≒ 0.61525$ である。
$\kappa$ の標準誤差は $2$ 種類定義される。$1$ つは，$\kappa$ の信頼区間を求めるための $\sigma_{\kappa}$，もう $1$ つは $\kappa$ が $0$ であるかどうかの検定を行うための $\sigma_{\kappa0}$ である。 \[ \begin{align*} \sigma_\kappa & = \sqrt{\frac{P_o\ Q_o}{n\ Q_e^2}} \\[5pt] \sigma_{\kappa 0} & = \sqrt{\frac{P_e}{n\ Q_e}} \end{align*} \] 例題では，$\sigma_{\kappa} = 0.07299$，$\sigma_{\kappa0} = 0.08181$ である。
$\kappa$ 統計量の $( 1 - \alpha ) 100 \%$ 信頼区間は，上側確率が $\alpha\, /\, 2$ に対応する正規分布のパーセント点を $Z_{\alpha\, /\, 2}$ とすると，次式で表される。 \[ \kappa \pm Z_{\alpha\, /\, 2} \times \sigma_\kappa \] 例題では，$95\%$ 信頼限界を求めるので $\alpha = 0.05$，したがって $Z_{\alpha\, /\, 2} = 1.96$ であるから，$0.61525 \pm 1.96 \times 0.07299$，すなわち信頼区間は $[ 0.47219, 0.75831 ]$ である。
$\kappa$ が $0$ であるかどうかの検定は，次式で求められる $Z$ が，正規分布に従うことを利用する。 \[ Z = \frac{\kappa }{\sigma_{\kappa 0}} \] 例題では，$Z = \displaystyle \frac{0.61525}{0.08181} = 7.52047$ となる。
有意確率を $P = \Pr\{|\,Z\,|\geqq Z_{0} \}$ とする。
正規分布表，または正規分布の上側確率の計算を参照すること。
例題では，$P \lt 0.0001$ である。
帰無仮説の採否を決める。
- $P \gt \alpha$ のとき，帰無仮説は棄却できない。「一致率が $0$ でないとはいえない（評定結果が一致しているとはいえない）」。
- $P \leqq \alpha$ のとき，帰無仮説を棄却する。「一致率は $0$ ではない（評定結果は一致している）」。
例題では，有意水準 $5\%$ で検定を行うとすれば（$\alpha = 0.05$），$P \lt \alpha$ であるから，帰無仮説を棄却する。すなわち，「評定結果は一致している」という結論になる。

R で計算してみる

重み付け $\kappa$ 統計量

上述の重み付けしない $\kappa$ 統計量は，実際には対角線上の桝目（すなわち，両評定者が一致した評定をした場合）の重みを $0$，非対角線上の桝目（評定が異なる場合）の重みを $1$ とした重み付け $\kappa$ 統計量である。
もし，評定者 A が $1$ と評定し評定者 B が $2$ と評定した場合と，評定者 A が $1$ と評定し評定者 B が $3$ と評定した場合には，不一致の程度が異なると考える場合には，より不一致であると考える桝目の重みを大きくすればよい。
各桝目の重みを $W_{ij} \ ( W_{ii} = 0, W_{ij} \gt 0 )$ としたときは，重み付け $\kappa$ 統計量は以下のように定義される。 \[ \begin{align*} Q_{ow} & = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}\ O_{ij}} {n}, \ \ \ \ \ Q_{ow^2} = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}^2\ O_{ij}} {n} \\[5pt] Q_{ew} & = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}\ E_{ij}} {n}, \ \ \ \ \ Q_{ew^2} = \frac{\displaystyle \sum_{i=1}^k \sum_{j=1}^k W_{ij}^2\ E_{ij}} {n} \\[5pt] k_w & = 1-\frac{Q_{ow}}{Q_{ew}} \\[5pt] \sigma_{\kappa_w} & = \sqrt{\frac{Q_{ow^2} - Q_{ow}^2}{n\ Q_{ew}^2}} \\[5pt] \sigma_{\kappa_{w_0}} & = \sqrt{\frac{Q_{ew^2} - Q_{ew}^2}{n\ Q_{ew}^2}} \end{align*} \]

$\kappa_{w}$ の信頼区間，$\kappa_{w} = 0$ の検定は重み付けなしの場合と同様に行う。

例題では，表 5 のような重みを付けて解析してみた。結果は以下の通り。

表 5．二人の評定者の違いに対する重み
評定者B

　$B_{1}$　　$B_{2}$　　$B_{3}$　

　評定者A　　$A_{1}$　 -- 1 3

　$A_{2}$　 1 -- 1

　$A_{3}$　 3 1 --

κw ・・・・・・・・・・ 0.6932629 sigmaκw ・・・・・・・・ 0.0686574 sigmaκw0 ・・・・・・・ 0.1126106 Ｚ値・・・・・・・・・ 6.1562841 有意確率・・・・・ < 0.0000001 ** ９５％信頼区間 [ 0.558697 , 0.827829 ]

R で計算してみる

演習問題：

応用問題：

計算プログラム　[R]　[Python]

直前のページへ戻る　　

E-mail to Shigenobu AOKI