No.14614 一部従属検定  【藤田】 2011/05/10(Tue) 22:45

古い話題になりますが,
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc023/124.html
こちらで何度か語られた杉山明子の一部従属検定についてです。

>正しい方法は,この掲示板のどっかにも書いたのだけど(それも最近)行方不明。

>件の例に沿っていえば,

>【全体・一年生】×【持っている・持っていない】の2×2分割表もどきを使って検定するのではなくて,
>【一年生〜四年生】×【持っている・持っていない】の4×2分割表で検定する。
>(または,一年生のみに注目するなら,【一年生・二年生以上】×【持っている・持っていない】の2×2分割表で検定する)

とありますよね。
そこでごく最近3月に出版されたばかりの杉山明子編著「社会調査の基本」という本のなかで一部従属検定についてこのように説明されています。そのまま引用します

ココカラ---------------------------------------------------------------------

クロス表である層(たとえば若者)のサンプルは全体の一部であり,2つのパーセントは一部従属していることになり,このままではパーセントの差の検定はできない。
そこで,全体からある層を除いた残りの層(若者以外)を想定すると,ある層と残りの層は,互いに独立なサンプルとなる。そのうえでパーセントを算出し,互いに独立なパーセントの差の検定を行う。
なお一般的なクロス表では残りの層のパーセントは出ていないので,つなぎの検定式を用いるとよい。

ココマデ---------------------------------------------------------------------

これは同じことを言ってるように思えるのですが,過去ログで話題に上った時期には
杉山さんはこのような説明ではなく「全体とその中のある層」の%の差の検定と述べていたのでしょうか?

私 は社会調査の仕事をしていて,社会調査では基本的にランダムサンプリングなので,私の職場でも他社の調査でもしばしば日本国民全体の%と特定年齢層の%で 有意差に言及するのにこの一部従属検定を使用しているのですが,先達からは実際に「全体とその中のある層」の%の差と教えられていました。

な ので3月に出版されたこの本で初めてそうではないことを知ったのですが,そうなるとこの一部従属検定では,特定の層がかなり少なければ日本国民全体の%と 特定年齢層の%に近いかもしれないけれど,特定の層が多ければ多いほどそこから激しく乖離していく,という解釈で正しいでしょうか?

No.14615 Re: 一部従属検定  【青木繁伸】 2011/05/11(Wed) 08:08

一番最初の書庫に入っている,古い古い問題です。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc001/047.html

No.14616 Re: 一部従属検定  【藤田】 2011/05/11(Wed) 10:59

返信ありがとうございます。

>ちょんぼです.
>全体と部分のデータがあるときに,その部分とその他の部分のパーセンテージに有意な差があるかを検定しています.

の部分ですが,最初の投稿の引用部分でまさにその通りに「特定層とそれ以外の差の検定」とはっきり説明していたので疑問に思いました。

なぜ杉山さんが特定層とその他の層の検定=全体と特定層の検定と考えたのかよくわかりませんが,もし「特定層」を示すものが二者択一の設問であったりすれば,単純に互いに独立した%の検定をしていることになりますよね。

(それについてもこちらのログ
http://aoki2.si.gunma-u.ac.jp/taygeta/statistics.cgi?mode=res&no=14318
に ある検定統計量で判定するのではなく,A<Bなら有意差ありとは言えないという好ましくない方法,ということになりますが,社会調査系の本で提示さ れる検定は概ねこの互いに独立,互いに従属,一部従属の3種類ですね。統計的な正確さより簡便さをとったのでしょうか…?)

本当に母集団全体の%とその中のある特定層の%の差を検定したければ,現実には無理ですが標本調査ではなく全数調査で適合度のカイ二乗検定をするとかでしょうか?

No.14617 Re: 一部従属検定  【青木繁伸】 2011/05/11(Wed) 11:35

> 現実には無理ですが標本調査ではなく全数調査で適合度のカイ二乗検定をするとかでしょうか?

そもそも,全数調査したなら検定はできませんね。

No.14618 Re: 一部従属検定  【藤田】 2011/05/11(Wed) 12:10

失礼しました,全数調査したなら単純に%を比較すればいいですね。
間の抜けたことを書きました。

数千程度のN数で残りが全体に近い程特定層が少なければ実数が少なすぎるし,多ければ残りは全体には程遠いし,2011版の書籍でも未だに「特定層とその他の層の検定でもって全体と特定層の検定を行う」となっているのは怖い話ですね。

どうもありがとうございました。

No.14619 Re: 一部従属検定  【たけなみ】 2011/05/11(Wed) 20:29

ある層(A)とそれ以外(N-A) は互いにどちらかが増えれば反対が減る完全従属な関係にあって2つで全体となるのだから
AとN-Aの%の有意差の有無はそのままAとNの%の有意差の有無と同意義になるのではないでしょうか?
Aが仮に非常に特殊な層だとして,それを取り除いたN-Aの%との比較より含んだままのNの%との比較のほうが一見差が薄まるような気がしてしまいますが,NとN-Aも違いますよね。

No.14620 Re: 一部従属検定  【青木繁伸】 2011/05/11(Wed) 21:29

> ある層(A)とそれ以外(N-A) は互いにどちらかが増えれば反対が減る完全従属な関係にあって2つで全体となるのだから

そうですよ。

> AとN-Aの%の有意差の有無

正 確に言えば,A におけるある特性を持つものの割合と,non.A におけるある特性を持つものの割合に有意な差があるかということです。その割合の差は A と non.A の割合とは明白な関係はない。その割合の差は A と non.A の割合にどのような関係があるか(独立なのかそうではないのか)を見るのが2群の比率の差の検定(独立性の検定)なのだから,

> そのままAとN-Aの%の有意差の有無と同意義

には,ならない。

また,ある検定が正しいかどうかは,検定の対象数(サンプルサイズ)に水増しや重複がないかどうかで簡単にチェックできる。サンプルイズは検出力に関係するから,サンプルサイズを水増しした検定は有意な結果が出やすくなる。そんな検定は,インチキ。
ちゃんとした検定
特性あり 特性なし 計
A a b a+b
non.A c d c+d
計 a+c b+d a+b+c+d
一部従属な検定
特性あり 特性なし 計
A a b a+b
A+non.A a+c b+d a+b+c+d
計 2a+c 2b+d 2a+2b+c+d  <--- 水増し
何をどう言いくるめようと,誰がどう言おうと,間違いは間違い。

以下のような極端な場合を考えると,誰もがおかしいと思うだろう。1330 人を対象とした調査の,本当の集計表は,
         特性あり 特性なし 計
A 500 800 1300
non.A 10 20 30
計 510 820 1330
一部従属な検定
特性あり 特性なし 計
A 500 800 1300
A+non.A 510 820 1330
計 1010 1620 2630 <--- いつの間に 2630 人の調査結果に?

No.14621 Re: 一部従属検定  【たけなみ】 2011/05/11(Wed) 22:04

言いくるめようなどという意図は全くないのですが...
その例だと

特性あり 特性なし 計
A a b a+b
non.A c d c+d

の検定と

A a b a+b
計 a+c b+d a+b+c+d

が同義という形を想定して書きました。
計からAの特性が除かれ,計からnon.Aでサンプルサイズの減少し,有意な結果の出やすさは同一のままなのではないかと思うのですが。

No.14622 Re: 一部従属検定  【青木繁伸】 2011/05/11(Wed) 22:10

実際に計算するときに,どの数字が使われるか見れば,間違った計算をしていることに気づくでしょう。
  特性あり 特性なし 計
A a b a+b
計 a+c b+d a+b+c+d
この集計表の検定で使われる「本当の計」は
計   2a+c      2b+d   2a+2b+c+d
なんですよ。2群をプールしたある特性を持つ割合の推定値は (2a+c)/(2a+2b+c+d) で計算されるんですよ。分母の 2a+2b+c+d が,検定に使用されるサンプルサイズです。

「い やいや,割合の推定値は (a+c)/(a+b+c+d) で検定しますよ」という回答が繰るかも知れないけど,「いや,それはね母比率の検定になるんですよ。母集団の中のサブグループの割合を全体の割合と比べる ということになるので,a+b が a+b+c+d よりかなり小さくないと,あるいは,a+b+c+d がかなり大きくないとおかしなことになりますけど。」と,前もって書いておきます。

No.14623 Re: 一部従属検定  【たけなみ】 2011/05/11(Wed) 23:54

すみません,わかりにくい書き方をしてしまいました。
一部とそれ以外の独立性の検定ではなくて,互いに独立した一部とそれ以外の母比率の差の検定です。

No.14624 Re: 一部従属検定  【藤田】 2011/05/12(Thu) 01:22

最初に質問しておいて既についていけなくなっていて申し訳ないのですが,
前述書籍では例として

条件
・信頼度95%,係数1.96を2とする
・母集団 少なくとも10000以上,(N-n)/(N-1)を1とみなせる,無限母集団である
・サンプルはランダムサンプルである,数nは少なくとも100以上,母分散をサンプル分散でおきかえることができる,あるいは母比率Pをサンプル比率pでおきかえることができる

母集団 日本国民
l サンプルサイズ 2710
m そのうち16〜29歳の層(以下若年層) 432人
f 残りの層 2710-432

p サンプル全体でのある特性 55%
q 若年層でのある特性 37%
r 残りの層のある特性

P 母集団(国民全て)でのパーセント
Q そのうち16〜29歳の層でのパーセント
R 残りの層でのパーセント

若年層と国民全体とで差があるといえるか
若年層と若年層以外の互いに独立なパーセントの検定を行う

|q-r|≧2*{SQRT(P*(100-P)*(m+f/mf)}
(西平重喜 1985 統計調査法の互いに独立なパーセントの検定式ですね)

P=(m*q+f*r)/(m+f) p=(m*q+f*r)/(m+f) f=l-m  であることから

P=p
r=(l*p-m*q)/(l-m)
を上記式に代入し
|p-q|≧2*{SQRT(p*(100-p)*(l-m/lm)}

55-37>2*{SQRT(55*(100-55)*(2710-432/2710*432)}
18>4.4
であるので,若年層と国民全体では有意差がある

としています。
前提条件がいくつもあって理解しきれていないのですが,こういう条件下だと可能なのでしょうか。

No.14625 Re: 一部従属検定  【青木繁伸】 2011/05/12(Thu) 08:31

> 一部とそれ以外の独立性の検定ではなくて,互いに独立した一部とそれ以外の母比率の差の検定です。
         特性あり 特性なし 計
A 500 800 1300
non.A 10 20 30
計 510 820 1330
に おいて,A と non.A の特性ありの割合の差の検定(独立二標本の比率の差の検定)は,A/non.A と 特性あり/なしの独立性の検定と全く同じです(検定統計量が Z になるかカイ二乗値になるかの違いはありますが,P 値は同じになります(両側検定の場合))。

No.14626 Re: 一部従属検定  【青木繁伸】 2011/05/12(Thu) 08:36

> 前述書籍では

どの文献ですか?

> 西平重喜 1985 統計調査法の互いに独立なパーセントの検定式

|q-r|≧2*{SQRT(P*(100-P)*(m+f/mf)}は,
|q-r|≧2*{SQRT(P*(100-P)*(m+f)/(mf)} ですね?

よくみたら,問題ありあり。結局一部従属なデータを独立に標本の比率の差の検定として行っているのだから問題でしょう。

No.14627 Re: 一部従属検定  【藤田】 2011/05/12(Thu) 12:41

ありがとうございます,何度もすみません。
先の例でならば
        特性あり  特性なし   計
若年層     160 (37%)  272      432
それ以外    1331(58%)  947      2278
計       1491(55%)  1219     2710

母比率の差の検定
Z0=abs(q-r) / {SQRT(P*(100-P)*(m+f)/(mf)}
P値ではなく右辺と左辺を比較している西平さんの%の差の検定
abs(q-r)≧2*{SQRT(P*(100-P)*(m+f)/(mf)}
カイ二乗値による独立性の検定で
T = 2710*(160*947-1331*272)^ / 1491*1219*432*2278

はいずれも国民全体の若年層とそれ以外という二群の差を検定しているという理解で正しいでしょうか?


青木先生が既に過去のログでも何度も仰られた通り,全体と一部で検定しては
計が2710+432になってしまうので当然ダメですよね。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc043/12418.html
の過去ログも少し似た話題だと思うのですがこちらのログのケースと違って,若年層432人を標本とするなら母集団は国民全体ではなく若年層の総人口なので,母比率の検定もダメですね。無意味を承知で式にするとこうでしょうか。

abs(q-P) / SQRT{P*(1-P)/m} (P=55%をP=0.55として)
abs(37-55) / SQRT{0.55*(1-0.55)/432}

それが片山さんが西平さんの式にP=(m*q+f*r)/(m+f),p=(m*q+f*r)/(m+f),f=l-m,r=(l*p-m*q)/(l-m)を代入して変形させた

|p-q|≧2*{SQRT(p*(100-p)*(l-m)/(lm)}
|55-37|≧2*{SQRT(55*(100-55)/513}

と,m と (lm/(l-m)) の差を無視できるlとmの場合等しいとしたのでしょうか…。
仮に等しいとしても,母集団が違うのに式にあてはめただけの母比率の検定と,部分とそれ以外を独立した別の標本とした二群の差の検定が等しいからと言って

若年層と国民全体では有意差がある(あるとはいえない)

になるわけではないですよね?

No.14628 Re: 一部従属検定  【藤田】 2011/05/12(Thu) 13:08

>|q-r|≧2*{SQRT(P*(100-P)*(m+f/mf)}は,
>|q-r|≧2*{SQRT(P*(100-P)*(m+f)/(mf)} ですね?

そうですね,すみません。
以下の書き込みの右辺一番端も全て同様に書き間違えていたので修正しました。

>どの文献ですか?

社会調査の基本 杉山明子 朝倉書店 2011版 です。
1984年版ではもしかしたら違う説明かもしれませんが確認できておりません。

No.14629 Re: 一部従属検定  【青木繁伸】 2011/05/12(Thu) 13:26

検定方式がちゃんと示されたので,追試できますね。
l <- 2710
m <- 432
(f <- l-m)
n.p <- 1491
(P <- p <- n.p/l*100)
n.q <- 160
(q <- n.q/m*100)
(n.r <- n.p-n.q)
(r <- n.r/f*100)
(z1 <- abs(q-r)/sqrt(P*(100-P)*(m+f)/(m*f)))
(z2 <- abs(p-q)/sqrt(P*(100-P)*(l-m)/(l*m)))
というスクリプトで
> l <- 2710
> m <- 432
> (f <- l-m)
[1] 2278
> n.p <- 1491
> (P <- p <- n.p/l*100)
[1] 55.01845
> n.q <- 160
> (q <- n.q/m*100)
[1] 37.03704
> (n.r <- n.p-n.q)
[1] 1331
> (r <- n.r/f*100)
[1] 58.42845
> (z1 <- abs(q-r)/sqrt(P*(100-P)*(m+f)/(m*f)))
[1] 8.194116
> (z2 <- abs(p-q)/sqrt(P*(100-P)*(l-m)/(l*m)))
[1] 8.194116
となるので,めでたく同じZ値になることが分かり,同じ検定をしていることが分かります。しかし,それは結局は一部従属の検定を行っていることになるが,普通は独立二群の比率の差の検定をしていると理解する。別に新しい検定を導入したことにはならない。

No.14630 Re: 一部従属検定  【青木繁伸】 2011/05/12(Thu) 13:41

普通の,独立二群の比率の差の検定の統計量は
> sqrt(prop.test(c(160,1331), c(432,2278), correct=FALSE)$statistic)
X-squared
8.194116
となるので,No. 14629 の 8.194116 に等しくなることが分かる。

No.14631 Re: 一部従属検定  【青木繁伸】 2011/05/12(Thu) 13:45

長いスレッドになってしまったけど,

> 一般的なクロス表では残りの層のパーセントは出ていないので,

というのは,普通のことではないと思うし,

> つなぎの検定式を用いるとよい。

として,「全体と部分の比率の差の検定」式を出したりするから,紛らわしいことになる。

No.14632 Re: 一部従属検定  【藤田】 2011/05/12(Thu) 13:50

追試までしていただいて恐縮です。
あと検定式の()間違えていてすみませんでした。

>普通は独立二群の比率の差の検定をしていると理解する。

そうですよね。
例 題の解説でもやはり「国民全体の若年層人口」と「国民全体の若年層以外の人口」をそれぞれ別の母集団,標本の層別実数をそれぞれのサンプルとして,比率の 差の検定をし有意差があると解説しているんです。ところが突然その次の段落で「であるので若年層と国民全体で有意差がある」と結論づけられてしまっていま す。

何故「であるので」なのかが一番重要なところだと思うのですが…。
なのでNo. 14627の後半以降

>若年層432人を標本とするなら

以降のような考えを巡らせてみたのですが,どうにも力不足すぎて理解が及びません。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る