「統計学関連なんでもあり」の過去ログ--- 046

No.21049　データの正規性について　　【コロン】　2014/05/21(Wed) 13:55

いつもお世話になっております。

ただいま査読をおこなっておりまして，分析のところでわからなりました。

テスト得点（100点満点）を特性値にして，授業前と後の得点の変化を検定しています。被験者は23名です。

「手元のデータは正規分布をしていないし，かつ，サンプルサイズが23名と少ないので，ウィルコクソンの符号付き順位和検定をした」とあります。実際，正規分布をしているかしていないかの検定はされていません。

わからないことが2点あります。

（あ）「手元のデータ」が「正規分布」をしていなくてはいけないのかということです。母集団に正規分布を仮定できるかどうかが大事ではなかったかと思うのです。

（い）サンプルサイズについても「23名と少ないので」とありますが，G Powerでサンプルサイズを求めてみると，対応のあるt検定では，
（1）効果量中 0.5, α=0.05, Power=0.8 で33人
（2）効果量大 0.8, あとは同じ，で15人
となります。なので，サイズの問題でもないと思うのです。

また青木先生のサイト

http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.html

の表の下にパラメトリック，ノンパラメトリックに関する注意書きがあります。

こういったものを踏まえると，査読中のデータは，対応のあるt検定で大丈夫だと思うのですが，いかがでしょうか？

よろしくお願いいたします。

No.21050　Re: データの正規性について　　【青木繁伸】　2014/05/21(Wed) 19:12

母集団データも，標本データも，正規分布している必要はない。対応のあるそれぞれのデータは，同一の分布に従っている必要はある。また，対になっていのデータの差は正規分布している必要がある。
シミュレーションでやってみる。
母分布は「指数分布!!!」，対応のあるデータの差は平均値0の正規分布に従う（+rnorm(n, mean=delta.mean)）。
> sim <- function(n=30, delta.mean=0) {
+ 	x <- rexp(n)
+ 	y <- rexp(n)+rnorm(n, mean=delta.mean)
+ 	t.test(x, y, paired=TRUE)$p.value < 0.05
+ }
> mean(replicate(10000, sim()))
[1] 0.0483
対応のあるデータの差の平均値は0になるはず。しかし，複数回行ったシミュレーションでは，そのうちの5%は「いいや，平均値の差は0じゃないよ!」という結果になるよと言う例。

もう一つ。パラメトリックなt検定の仮定が満たされているとき，t検定に比べたウィルコクソンの符号付き順位和検定の検定効率はπ/3≒95.5%。つまり，ウィルコクソンの符号付き順位和検定で必要なサンプルサイズは，t検定で必要なサンプルサイズの比はπ/3であるということ。そんなにひけを取らないものなんですよ...と。