No.02354 カイ2乗での多重比較  【HT】 2007/01/18(Thu) 18:06

お伺い致します。

対応のない4群データの多重比較を行っています。
永田・吉田やKasuya (2001)などで勉強しましたが,自分のデータについてはノンパラメトリックかつ等分散が仮定できない場合に相当するため,Steel-Dwassは使 わず,メディアン検定を行うことにしました。(BonferroniやHolmで有意水準を修正)

しかし,ふと思ったのですが,中間値で2分するのではなく,4分位値で区切ってカイ2乗検定を行う,というのでは駄目なのでしょうか?
特に自分のデータは大まかに言って高い値の群と,中間の値の群と,低い値の群に分かれるので,単純に上下に2分するよりこのような区切りのほうが値の上下関係を解析する上で適切かと思ったのです。
ですが教科書的にはそのような手法はないようですので,使用するのが不安ではあります。解析として何か不適切な点はあるでしょうか?

何かアドバイスいただければ幸いです。
宜しくお願い致します。

No.02357 Re: カイ2乗での多重比較  【青木繁伸】 2007/01/18(Thu) 18:25

過去ログにも2件くらいあると思いますが,ノンパラメトリックで等分散性が保証できないときにはメディアン検定まで落としてしまえと主張する人がいるようです。
貴方がメディアン検定を選択したのもそのような理由からでしたか?
そこまでしなくてもとは思うのですが。

4分位で区切るというのは4群×4分割ということですね?
当然ながら4分割されたカテゴリーには順序が付いているわけですから,その情報を利用せずにカイ二乗検定というのは中途半端な気がしますね。
そんなことをするのなら,カテゴリー分けなどしなくてそのままのデータに対してSteel-Dwass検定を行えばよいと思いますが。等分散が仮定できないというのなら,4分割したからといって等分散が仮定できるものでもないでしょう。

4分割する例がないのは,そのようなものが特別ではない(5分割でも3分割でも,8分割だってあり)という理由からでしょう。連続量のカテゴリー化は,決まりは何にもないですからね。

No.02358 Re: カイ2乗での多重比較  【HT】 2007/01/18(Thu) 18:48

青木先生,迅速な回答ありがとうございます。
過去ログは既に検索し読ませていただいております。

>貴方がメディアン検定を選択したのもそのような理由からでしたか?

そうです。確かにSteel-Dwassを使いたいとも思うのですが,
データについては上下関係だけでなくそのバラつきについても考察すべき状況でして,「等分散を仮定した検定」であるならまずいと思ったのです。
なので合わせてSiegel-Tukeyなどを使うことも考えたのですが,Siegel-Tukeyでの多重比較をやった例というのも聞いたことがないので行ってません。
Siegel-TukeyもBonferroniなどで単純に多重比較に拡張できると考えていいのでしょうか?

>4分位で区切るというのは4群×4分割ということですね?
>当然ながら4分割されたカテゴリーには順序が付いているわけですから,その情報を利用せずにカイ二乗検定というのは中途半端な気がしますね。

分割は4×4です。確かに順序がつくことになります。この場合,何か順付けを前提にした検定はあるのでしょうか?
もしなければ,やはり4分位での検定,もしくはSteel-Dwassを検討しようと思います。

いろいろと不勉強ですみません。再度宜しくお願いします。

No.02359 Re: カイ2乗での多重比較  【青木繁伸】 2007/01/18(Thu) 19:01

> 何か順付けを前提にした検定はあるのでしょうか

質問の意図がよくわかりませんが。
下位検定で使うなら,U検定ということになるでしょう。

多重比較と言うことでは,
http://aoki2.si.gunma-u.ac.jp/lecture/Average/kwtest.html
の後半などは?

繰り返しますが,4分割しても元のままのデータを使っても,順位を利用するという意味ではカイ二乗検定よりは検出力が高い。元のままのデータを使う方が4分割するよりは検出力は高い(2分割は最も検出力が低い)。
また,4分割しても,等分散性が仮定できるようになるものではない。

No.02360 Re: カイ2乗での多重比較  【HT】 2007/01/18(Thu) 19:13

>質問の意図がよくわかりませんが。
すみません,自分で読み返してもこの質問はおかしいなと思いました,失礼しました。

U検定,K-Wなどの順位による検定も勉強したのですが,
Kasuya(2001)の話は,「MannWhitneyのUやK-Wは等分散性を前提としているので,等分散でないなら等分散に依存しない(not depend onと書かれてますが)検定である,メディアン検定などを使え」ということだと思います。ですので,

>4分割しても,等分散性が仮定できるようになるものではない。

というのはわかるのですが,私の場合は等分散を仮定したくて4分割するわけではなく,仮定できないから4分割を使う,という意味でカイ2乗での検定を行おうと思っているのです。この考え方は間違っていますでしょうか?

また,先生が紹介されているページのSheffeの多重比較検定の場合は,等分散は前提としていないのでしょうか?(というより,あまり等分散,不等分散にはこだわるな,ということでしょうか。)

No.02361 Re: カイ2乗での多重比較  【青木繁伸】 2007/01/18(Thu) 19:37

4分割してカイ二乗検定を行うということは,分布の差(順序の情報を使わない)の検定を行うのと等価です。
以下のようなシミュレーションを行う。
各群100例。母平均0だが,一方の標本は分散が1,もう一方は分散が4(ちょっとひどすぎる例だが)
> set.seed(12345)
> x <- rnorm(100)
> y <- rnorm(100, sd=2)
> z <- c(x, y)
> g <- rep(1:2, each=100)
> wilcox.test(z~g)
ウィルコクソンの順位和検定(連続性の補正)

データ: z を g で層別
W = 5352, P値 = 0.3904
対立仮説: location shiftは,0ではない

> t.test(x, y)
二標本t検定(Welchの方法)

データ: x と y
t値 = 0.67, 自由度 = 154.068, P値 = 0.5038
対立仮説: 母平均の差は,0ではない
95 パーセント信頼区間: -0.3014750 0.6109369
標本推定値:
平均値x 平均値y
0.24519720 0.09046623

> z <- findInterval(z, quantile(z)[2:4])
> tbl <- table(g, z)
> tbl
z
g 0 1 2 3
1 17 28 35 20
2 33 22 15 30
> chisq.test(tbl)
ピアソンのカイ二乗検定(連続性補正なし)

データ: tbl
カイ二乗値 = 15.84, 自由度 = 3, P値 = 0.001223

カイ二乗検定の方が有意になってしまう。U検定もt検定も有意ではない。
クロス集計表を見ると明らか。グループ2は,凹型の分布になっている。
この意味では,分散が違うと,平均値は同じでも,3群以上に区分するとろくなことがなさそう。

ついでに,中央値検定の場合
> set.seed(12345)
> x <- rnorm(100)
> y <- rnorm(100, sd=2)
> z <- c(x, y)
> z <- findInterval(z, quantile(z)[3])
> g <- rep(1:2, each=100)
> tbl <- table(g, z)
> tbl
z
g 0 1
1 45 55
2 55 45
> chisq.test(tbl)
ピアソンのカイ二乗検定(イエーツの連続性補正)

データ: tbl
カイ二乗値 = 1.62, 自由度 = 1, P値 = 0.2031

> t.test(x, y)
二標本t検定(Welchの方法)

データ: x と y
t値 = 0.67, 自由度 = 154.068, P値 = 0.5038
対立仮説: 母平均の差は,0ではない
95 パーセント信頼区間: -0.3014750 0.6109369
標本推定値:
平均値x 平均値y
0.24519720 0.09046623

中央値検定も有意ではないが,t検定に比べてP値は小さい。
(たくさんの例をシミュレーションしてみないといけないとは思うが)

No.02362 Re: カイ2乗での多重比較  【HT】 2007/01/18(Thu) 20:33

青木先生,詳しく検定について示して頂き,ありがとうございます。
検定方法とその結果の違いについてはよくわかりました。
ただ,自分のケースで何を使ったらよいのかについてはまだ困惑しております。
(一通りいろんな検定は行ったのですが。)

もう少し勉強して判断してみようと思います。
この度はどうもありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る