「統計学関連なんでもあり」の過去ログ--- 048

No.22474　Rの'irr'パッケージ（新たなスレッドで）　　【0669SABON】　2017/11/14(Tue) 13:10

再度，検定力分析について調べ直しましたがまだ十分に理解できておりません。
またirr パッケージのオンラインヘルプに引用されている文献ですが取り寄せることができておらず，まだ読んでおりません。
このような状況で質問するのは無礼だと承知していますが，ご教授いただけると幸甚です。

irrパッケージのN2.cohen.kappaを使用したいのですが

オンラインヘルプの
mrg a vector of marginal probabilities given by raters
ということがわかりません。
そのため
Examples
require(lpSolve)
# Testing H0: kappa = 0.4 vs. HA: kappa > 0.4 (=0.6) given that
# Marginal Probabilities by two raters are (0.2, 0.25, 0.55).

0.2と0.25と0.55の数字が何を現しているかわかりません。
勉強不足で理解が及ばないためご教授頂けると大変助かります。
何卒よろしくお願いいたします。

No.22475　Re: Rの'irr'パッケージ（新たなスレッドで）　　【青木繁伸】　2017/11/14(Tue) 13:36

marginal probabilities というのは，「周辺確率」ということですが，統計学を知らないと難しいかも知れませんね。
集計表で marginal sum というのは「周辺和」といいますが，一般用語では「合計欄」とか「行和」，「列和」といったほうが分かりやすいのでしょう。
irr の kappa2 の example で扱われている diagnose データセットで例を挙げると
> data(diagnoses)
> # Unweighted Kappa for categorical data without a logical order
> kappa2(diagnoses[,2:3])
 Cohen's Kappa for 2 Raters (Weights: unweighted)

 Subjects = 30 
   Raters = 2 
    Kappa = 0.631 

        z = 7.56 
  p-value = 4.04e-14 
この分析例では，rater4 と rater5 を対象としています
> head(diagnoses[,c(4, 5)])
            rater4           rater5
1      4. Neurosis      4. Neurosis
2         5. Other         5. Other
3 3. Schizophrenia 3. Schizophrenia
4         5. Other         5. Other
5      4. Neurosis      4. Neurosis
6 3. Schizophrenia 3. Schizophrenia
集計表は table(diagnoses[,c(4, 5)]) で求められますが，簡単に表示すると
> t=table(diagnoses[,c(4, 5)])
> colnames(t) = rownames(t) = 1:5
> t
      rater5
rater4  1  2  3  4  5
     1  1  0  0  0  1
     2  0  1  0  0  0
     3  0  0  6  0  1
     4  0  0  0 12  1
     5  0  0  0  0  7
これに「周辺和」を付加すると，
> addmargins(t)
      rater5
rater4  1  2  3  4  5 Sum
   1    1  0  0  0  1   2
   2    0  1  0  0  0   1
   3    0  0  6  0  1   7
   4    0  0  0 12  1  13
   5    0  0  0  0  7   7
   Sum  1  1  6 12 10  30
となります。Sum と書かれた行と列にあるのが「周辺和」です。
「周辺確率」はそれをサンプルサイズ（今の例では 30）で割ったものです
> rowSums(t)/30 # rater4 に対する周辺確率
         1          2          3          4          5 
0.06666667 0.03333333 0.23333333 0.43333333 0.23333333 
> colSums(t)/30 # rater5 に対する周辺確率
         1          2          3          4          5 
0.03333333 0.03333333 0.20000000 0.40000000 0.33333333 
それぞれの周辺確率は本来は同じ理論的な確率にしたがうものでしょう。N2.cohen.kappa で指定するのは，この「理論的な（周辺）確率」です。本来は得られたデータから決めるものではありませんが，取りあえずは 2 人の評価者の平均を参考にするということもあるでしょうし，このデータセットでは6人の評価者の平均を使うということもあるでしょう。先行研究の結果を使うこともあるでしょう。

No.22481　Re: Rの'irr'パッケージ（新たなスレッドで）　　【0669SABON】　2017/11/19(Sun) 10:37

青木先生

　ありがとうございます。
　返信が遅くなり申し訳ございません。
　また周辺確率という新しい言葉を聞いて再度調べ直しています。
　
　先のスレッドを見て，私自身もサンプルサイズなどを検討せず研究を進めていたため反省しています。

　研究方法，研究倫理を見直します。
　統計方法以前の問題ですね。

　
　ありがとうございました。
　またご相談させて頂きます。