以下のように記号を定める。
所見(結果)あり | 所見(結果)なし | |
対象群(要因あり) | \(a\) | \(b\) |
対照群(要因なし) | \(c\) | \(d\) |
オッズ比 \(OR\) のシンプルな定義は,
\[
OR = \frac{a\ d}{b\ c}
\]
である。しかし,この定義では \(b\) または \(c\) が 0 のときに不都合なので,\(a\),\(b\),\(c\),\(d\) のいずれかが 0 であるときにはそれぞれに 0.5 を加えるという補正が行われることがある。つまり,
\[
OR = \frac{(a+0.5)\ (d+0.5)}{(b+0.5)\ (c+0.5)}
\]
のように定義する。さらに,この補正をいつも行うという定義の仕方もある。
実際に,以下の例について計算してみよう。
所見(結果)あり | 所見(結果)なし | |
対象群(要因あり) | 5 | 14 |
対照群(要因なし) | 16 | 11 |
a <- 5 b <- 14 c <- 16 d <- 11 OR <- a*d/(b*c) OR
## [1] 0.2455357
OR.corrected <- (a+0.5)*(d+0.5)/((b+0.5)*(c+0.5)) OR.corrected
## [1] 0.2643678
オッズ比の信頼区間を求めるためには,オッズ比の標準誤差が必要であるが,標準誤差 \(SE\) はオッズ比の対数を取ったログ・オッズ \(\log OR\) について近似値が求められる。すなわち,
\[
\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}
\]
で近似される。これを用いて,例えば,\(OR\) の 95% 信頼限界は,
\[
OR \times \exp\Biggl ( \pm q \sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}} \Biggr )
\]
となる。\( (1-\alpha)100\)% 信頼区間を求めるときには,標準正規分布において上側確率が \(\alpha/2\) の分位点を \(q\) とする(95%信頼区間限界を求めるときには,1.96 である)。
実際に,前節の数値例について計算してみよう。
SE <- sqrt(1/a+1/b+1/c+1/d) SE
## [1] 0.6517957
q <- qnorm(0.975) q
## [1] 1.959964
OR * exp(-q*SE)
## [1] 0.06843924
OR * exp( q*SE)
## [1] 0.8808951
補正されたオッズ比では,ログ・オッズの標準誤差の計算においても \(a\),\(b\),\(c\),\(d\) に 0.5 が加えられたものが用いられる。その結果,以下のようになる。
SE.corrected <- sqrt(1/(a+0.5)+1/(b+0.5)+1/(c+0.5)+1/(d+0.5)) SE.corrected
## [1] 0.6311468
OR.corrected * exp(-q*SE.corrected)
## [1] 0.07673181
OR.corrected * exp( q*SE.corrected)
## [1] 0.9108392
直接的にオッズ比の検定を行う方法はないが,検定と推定の関係から,「\((1-\alpha)100\) % 信頼区間が 1 を含まなければ,有意水準 \(\alpha\) の下で有意なオッズ比である」といえる。
さて,前節の数値例で見れば,オッズ比の 95% 信頼区間は \([ 0.068, 0.881 ]\) となる。補正した場合には \([ 0.077, 0.911 ]\) である。いずれも 1 を含まないので,「オッズ比は 1 ではない」という対立仮説が採択される。
さて,ここで取り上げているような 2×2 分割表の分析には,独立性の検定(比率の差の検定と等価で,いわゆるカイ二乗検定)も適用される。
前節の数値例を検定してみると,
x <- matrix(c(a, b, c, d), 2) chisq.test(x)
## ピアソンのカイ二乗検定(イエーツの連続性補正) ## ## データ: x ## カイ二乗値 = 3.6407, 自由度 = 1, P値 = 0.05638
のようになり,\(p\) 値は 0.056 で,5% の有意水準の下では帰無仮説は棄却できない。なお,ここでの検定は,結果の表記にもあるように,イエーツの連続性の補正を行った検定結果である。
イエーツの連続性の補正を行わない場合は,
chisq.test(x, correct=FALSE)
## ピアソンのカイ二乗検定(連続性補正なし) ## ## データ: x ## カイ二乗値 = 4.8781, 自由度 = 1, P値 = 0.0272
のようになり,\(p\) 値は 0.027 で,5% の有意水準の下で帰無仮説は棄却される。
ここまでの検定結果をまとめると,
ということであり,検定方法によって結果がことなる。どれを採用したらよいか迷うが,この数値例の場合,\(p\) 値が有意水準に近いところにあり,検定法や連続性の補正を行うか行わないかというような条件が少し違うだけで,有意になるったり有意でなくなったりするのである。
もう一つの原因としては,そのような状況に加えて,それぞれの検定方法が「近似的なもの」である点を挙げておこう。オッズ比の信頼区間を求めるさいには「ログ・オッズの標準誤差の近似値」が用いられ,独立性の検定は多項分布をカイ二乗分布で近似した「漸近検定」なのである。
さて,オッズ比の推定法にはもう一つある。それは R
でも採用されている「フィッシャーの正確検定 fisher.test
」の結果として得られる。フィッシャーの正確検定が独立性の検定の正確なバージョンであるかどうかについては諸説あるが,その検定結果を見てみよう。
fisher.test(x)
## 計数データにおけるフィッシャーの正確確率検定 ## ## データ: x ## P値 = 0.03759 ## 対立仮説: オッズ比は,1ではない ## 95 パーセント信頼区間: 0.05442047 1.02219408 ## 標本推定値: ## オッズ比 ## 0.2535867
またしても,矛盾する結果が付け加わった。数値例については,
さて,どのようにすべきか。
データを取って統計解析すると,結果をみんなに報告したくなる(あるいは,報告しなければならなくなる)。しかし,実質的に意味のある結果が得られたものを報告するという方針が一番確かである。実質的に意味のない結果を報告するなということではないが,実質的に意味がある結果かそうでないかの判断を併せて報告する必要があろう。実質的に意味のある結果でも,統計解析(検定)すると「統計学的には意味のない結果」ということもある。しかし,それは,「データが少ない」ことが原因であり,データを増やせば統計学的にも意味があるという保証を得ることもあろう。
実質的に意味があるかどうかは,それぞれの分野の固有科学によるので統計学があれこれはいえないが,効果量(effect size)を求めてその大小によって判断するということは可能であろう。
検定は「有意か有意でないか」はっきりさせるものではあるが,\(p\) 値が 0.049 なら有意で,0.051 なら有意ではないというものでもない(それでもなお,白か黒か迫られるけど)。「保留」領域を設けるのも一方ではあろう。
前項とも関連するが,1 つの数値(\(p\) 値)ではなく,信頼区間を(も)提示するのがよい。「オッズ比が 1 ではない(\(p\)値は幾つ)」というより,「オッズ比の信頼区間は \([p_1, p_2]\) である」というほうが情報は多い。信頼区間が \([0.07, 0.88]\) というのと \([0.24, 0.98]\) は,検定ではどちらも帰無仮説を棄却するということになるが,結果の重要性にはかなりの差がある。