No.13958 各条件下で同一被験者による繰返測定が行われたデータ  【波音】 2010/12/11(Sat) 23:48

こういうデータフレーム:

num <- rep(c("001", "002", "003"), c(5,5,5))
condA <- c(rnorm(5, 50, 5), rnorm(5, 50, 10), rnorm(5, 50, 20))
condB <- c(rnorm(5, 20, 5), rnorm(5, 20, 10), rnorm(5, 20, 20))
dat <- data.frame(ID = num, Condition.A = condA, Condition.B = condB)
dat

ID Condition.A Condition.B
1 001 47.88234 22.118213
2 001 50.52168 21.181767
3 001 47.04367 24.700783
4 001 44.25127 14.836067
5 001 44.43847 26.606641
6 002 47.89071 13.490223
7 002 54.56074 5.822872
8 002 55.22339 33.131295
9 002 43.37364 21.674269
10 002 52.72542 25.897471
11 003 37.00449 23.336027
12 003 67.91197 -4.680715
13 003 17.55402 5.284926
14 003 60.34603 31.957738
15 003 12.67606 22.573291

があったとします(001,002,003の被験者が条件A,条件Bそれぞれにおいて5回ずつ観測値が得られているというデータです。つまり同条件下で5回の繰り返し測定が行われているということになります)。

線形混合効果モデルを当てはめるのが適切というか無難そうですが,パッと考えて以下の3つの方法が思い浮かびました。これらはどういう問題があるのでしょうか。

> t.test(dat$Condition.A, dat$Condition.B)# おかまいなしにそのままt検定

Welch Two Sample t-test

t = 5.7231, df = 25.485, p-value = 5.423e-06

> x <- numeric(3)
> nm <- levels(dat$ID)
> for(i in 1:3) x[i] <- mean(dat[dat$ID==nm[i], 2])
>
> y <- numeric(3)
> for(i in 1:3) y[i] <- mean(dat[dat$ID==nm[i], 3])
>
> x
[1] 46.82748 50.75478 39.09851
> y
[1] 21.88869 20.00323 15.69425
>
> t.test(x, y)# 各被験者の平均値をとってt検定

Welch Two Sample t-test

t = 6.7883, df = 3.06, p-value = 0.006138

# 以下はブートストラップ的な発想
# 実行時間が少しかかるので注意!!
mean.x <- numeric(100000)
for(j in 1:100000){
for(i in 1:3) x[i] <- sample(dat[dat$ID==nm[i], 2], 1)
mean.x[j] <- mean(x)
}

mean.y <- numeric(100000)
for(j in 1:100000){
for(i in 1:3) y[i] <- sample(dat[dat$ID==nm[i], 3], 1)
mean.y[j] <- mean(y)
}

par(mfrow=c(1,2))
hist(mean.x) # ←なぜ正規分布っぽくならないのでしょう?
hist(mean.y)

No.13959 Re: 各条件下で同一被験者による繰返測定が行われたデータ  【波音】 2010/12/11(Sat) 23:50

最後の方法(コード)で実行した例のヒストグラム。


No.13963 Re: 各条件下で同一被験者による繰返測定が行われたデータ  【知ったかぶり】 2010/12/12(Sun) 16:37

>なぜ正規分布っぽくならないのでしょう?

mean.x,mean.yがとりうる値は,わずか125通りで,それらの値が等確率で得られるのですから,正規分布に近づかなくても当たり前では?これは,被験者間で分散が異なることとは無関係だと思います.

No.13964 Re: 各条件下で同一被験者による繰返測定が行われたデータ  【青木繁伸】 2010/12/12(Sun) 20:01

> おかまいなしにそのままt検定

「データは独立でなくてはならない」に違反
データの水増し効果の疑いもあり(次の項目とも関係するけど,同じ被検者に数万回も測定すると,差があるとしか言いようがない結果になる)

> 各被験者の平均値をとってt検定

幾つのデータの平均をとったのかが反映されない(数個ならよいけど,数万個ものデータの平均値を比較するなら,どんな小さな差でも,差があるとしか言いようがないのは自明)。

> ブートストラップ

「知ったかぶり」さんの指摘もあるけど,そもそもブートストラップは実際のデータのリサンプリングに依るので,元のデータのサイズが小さいとか偏っているとかの影響を受けてしまうことを否定できない。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る