「統計学関連なんでもあり」の過去ログ--- 043

No.12157　どこまでが独立なのでしょうか　　【Sai】　2010/02/23(Tue) 21:43

いつもお世話になっております。今日は独立性について質問させてください。
まず間違った解析と正しい解析の例題から始めさせてください。
例えば，植物の実験区画などでは，同じ区画の植物の平均値を使って解析することがあります。
今，区画A,B,Cにそれぞれ1000本の植物が植わっていて，それぞれ3区画ずつ用意されているとします。このとき，区画毎に異なる肥料をまき，それぞれの区画で植物の背の高さに違いがでるのかどうかを解析したいとします。このときのサンプルコードは以下のようになると思います。

set.seed(1)
A1 <- rnorm(1000, 20, 1)
A2 <- rnorm(1000, 20, 1)
A3 <- rnorm(1000, 20, 1)

B1 <- rnorm(1000, 15, 1)
B2 <- rnorm(1000, 15, 1)
B3 <- rnorm(1000, 15, 1)

C1 <- rnorm(1000, 10, 1)
C2 <- rnorm(1000, 10, 1)
C3 <- rnorm(1000, 10, 1)

ID2 <- rep(c("A", "B", "C"), each=3000)
D2 <- data.frame(Area=c(A1, A2, A3, B1, B2, B3, C1, C2, C3), ID2=ID2)

このときに，

res2 <- lm(D2$Area ~ D2$ID2)
> summary(res2)

Call:
lm(formula = D2$Area ~ D2$ID2)

Residuals:
     Min       1Q   Median       3Q      Max 
-3.78642 -0.68448 -0.01166  0.64471  3.90441 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.98865    0.01821  1097.7   <2e-16 ***
D2$ID2B     -4.98194    0.02575  -193.5   <2e-16 ***
D2$ID2C     -9.96859    0.02575  -387.1   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.9973 on 8997 degrees of freedom
Multiple R-squared: 0.9434,     Adjusted R-squared: 0.9433 
F-statistic: 7.493e+04 on 2 and 8997 DF,  p-value: < 2.2e-16

とやるのは擬似反復になってしまうので，間違ったやり方になるといくつかの書物には書いてありました(例えば「一般線形モデルによる生物科学のための現代統計学」)。
このような場合は，

ID3 <- rep(c("A1", "A2", "A3", "B1", "B2", "B3", "C1", "C2", "C3"), each=1000)
D3 <- data.frame(D2, ID3=ID3)
Mean <- tapply(D3$Area, D3$ID3, mean)
D4 <- data.frame(Mean=Mean, ID4=rep(c("A", "B", "C"), each=3))
res3 <- lm(D4$Mean ~ D4$ID4)
summary(res3)

Call:
lm(formula = D4$Mean ~ D4$ID4)

Residuals:
       Min         1Q     Median         3Q        Max 
-0.0391612 -0.0051097  0.0006913  0.0055659  0.0384699 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.98865    0.01556  1285.0  < 2e-16 ***
D4$ID4B     -4.98194    0.02200  -226.5  5.0e-13 ***
D4$ID4C     -9.96859    0.02200  -453.1  7.8e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.02694 on 6 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 1.027e+05 on 2 and 6 DF,  p-value: 2.494e-14

のように，各区画の平均値を使うのが良いとあります。
では，以下のような場合ではどうでしょうか。
例えば，河川a,b,cからそれぞれ30匹の魚を採集してきて，体長を測ったとします。

a <- rnorm(30, 20, 1)
b <- rnorm(30, 15, 1)
c <- rnorm(30, 10, 1)
ID <- rep(c("a", "b", "c"), each=30)

このとき河川ごとに体長に差があるかどうかを調べるときは，

D <- data.frame(Str=c(a, b, c), ID=ID)
res <- lm(D$Str ~ D$ID)
> summary(res)

Call:
lm(formula = D$Str ~ D$ID)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.86506 -0.84491 -0.09025  0.87689  3.04184 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  19.9852     0.2048   97.58   <2e-16 ***
D$IDB        -4.7711     0.2896  -16.47   <2e-16 ***
D$IDC        -9.9776     0.2896  -34.45   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.122 on 87 degrees of freedom
Multiple R-squared: 0.9317,     Adjusted R-squared: 0.9302 
F-statistic: 593.7 on 2 and 87 DF,  p-value: < 2.2e-16

とすれば河川ごとの差を調べることができると思います。
しかし，河川が大きな区画であると考えたとき，今90個のデータがありますが，これは植物の例のようにそれぞれ独立でないと考えることもできそうです。
しかし，魚の体長は河川による影響を受けているともいえますが，実際の研究には河川ごとに一つのデータしかない，というような解析を行なっている例は見当たりません。
一体何が基準で独立であるかそうでないかを判断するのでしょうか。
どなたか，ご存知の方がいましたら，ご助言・アドバイスをいただけると幸いです。

No.12163　Re: どこまでが独立なのでしょうか　　【青木繁伸】　2010/02/24(Wed) 18:31

実際の例ではないのだからでしょうけど，データの扱いが変だと思いますね。

A,B,C の3区画がそれぞれ3区画用意されていて，それぞれに1000本の植物があって，全部の植物のデータが測定されているのですか？そもそも，各区画に3区画用意するということ自体おかしい。A1, A2, A3 を区別せずに，A 全体から標本抽出して数十本の植物を選びその丈を測定してデータとすればよいでしょう。サンプルサイズを幾つにするかは，パワーアナリシスで決定する。
全数調査する必要などない。全数調査するからこそ後が面倒になる。

> 各区画の平均値を使うのが良いとあります

これもおかしい。各区画に1000本ということはないでしょうから，数十本ある場合でも，もし全数調査した本数に差があれば，重みの違う平均値をあたかも測定データのように扱うのは間違いでしょう。

「河川a,b,cからそれぞれ30匹の魚を採集してきて，体長を測った」という場合は，普通の標本調査データなので，上のようなものとは全く違うでしょう。上と同じような魚のデータの取り方は，例えば大きな網で川を仕切って，その中にいる魚全部の体長を測定するような場合でしょう。標本調査とは違うことがわかりますね。

世論調査をするとき，都市部と郡部でたとえば内閣支持率が違うかどうかを見たいなら，東京，名古屋，大阪のある区画を選んでそこに住んでいる有権者全部に聞いて，郡部 x, y, z のある区画に住んでいる有権者全部に聞いてなんてことやりませんよね。標本抽出します。
なぜ，例に挙がったような分野では全数調査みたいなことをするんでしょう。

No.12164　Re: どこまでが独立なのでしょうか　　【青木繁伸】　2010/02/24(Wed) 19:09

なにか考え方がずれているなあと思うのですが，その原因は，

> しかし，河川が大きな区画であると考えたとき，今90個のデータがありますが，これは植物の例のようにそれぞれ独立でないと考えることもできそうです。

というところですね。この 90 個のデータは，「河川が大きな区画であると考え」ようとも，普通には「独立なデータ」ですよ。上の例で上げたように，ある都市に住んでいる人のデータが独立でないなどということは考えられませんね。

植物の区画 A1, A2, A3 も，その中に生えている植物にとって見れば，全く同じ条件ではないでしょう。
肥料濃度についてなら，肥料濃度が同じと考えられるように面積や場所を設定するのでしょうけど，それでも違いは出てくるでしょう。その差が成長の差になるということでしょう。
肥料濃度以外の条件も，光，水，気流，その他諸々を考えると成長の差の原因になるでしょう。
植物の遺伝要因についても差がある場合があるでしょうが，品種が固定されているとその違いはあまり大きくないでしょう。

「データの水増し」というのは，「同じデータを何度も何度も取る」ということでしょうか？全く同じ条件下の環境から抽出されるデータは，同じ母数を持つデータなので，何個取ろうがその平均値は同じ，取れば取るほどサンプルサイズの効果が加わる。たくさん取れば取るほど，作業仮説が支持される方向に傾くということでしょうね。

植物と魚の例を見ると，管理されているか，管理されていないかの違いでしょう。
植物の場合でも，管理されていない場合には，魚や世論調査と同じになるでしょう。
要は，どの程度厳密に管理されているかでしょう。管理の程度は連続的だしものによって異なるので，何らかの基準があるわけではないでしょう。

管理されている場合にはデータの分散は小さい（分散が小さくなるように管理されている和です）。
管理されていない場合には，データの分散に人為的な影響はない。

No.12165　Re: どこまでが独立なのでしょうか　　【青木繁伸】　2010/02/24(Wed) 21:14

念のため，「管理されている」と「管理されていない」との違いは，わかりますよね？

No.12179　Re: どこまでが独立なのでしょうか　　【Sai】　2010/02/25(Thu) 22:15

青木先生，ご回答ありがとうございます。
おそらく，管理されているかいないかの違いは理解していると思いますが，念のため，この返信の最後で例をあげて確認したいと思います。

まず植物の例が全数調査になっていたことをお詫び申し上げます。
不適切な例でした。申し訳ありません。

ただ，青木先生の丁寧なレスポンスのおかげで私の疑問は解決されたように思います。
私の「どこまでが独立なのか」という疑問は，

＞植物と魚の例を見ると，管理されているか，管理されていないかの違いでしょう。
＞植物の場合でも，管理されていない場合には，魚や世論調査と同じになるでしょう。
＞要は，どの程度厳密に管理されているかでしょう。管理の程度は連続的だしものによって異なるので，何らかの基準があるわけではないでしょう。

＞管理されている場合にはデータの分散は小さい（分散が小さくなるように管理されている和です）。
＞管理されていない場合には，データの分散に人為的な影響はない。

という一文で解決しました。

つまり，
管理されている→人間の手によってなんらかの処理が行なわれた状態
管理されていない→人間の手は少なくとも作為的には加えていない状態

ということですね。管理されている場合はそれぞれのデータを独立として扱うのは不適当で，管理されていない場合はそれぞれ独立として扱うのが適当だろう，と。そのように理解しました。

では，私の理解の確認のために，もう一度例をあげて質問したいと思いますが（何度もすみません），例えば魚の例です。

人間によって管理されていなくとも，河に成長を阻害する物質が流れ込んでいる河川と，そうでない河川で成長率を比較する場合を考えます。私は上記の話から，この場合は二つの河川でサンプルサイズを等しくして，どちらかの河川からのデータに偏らないようにすることが大切だという認識を得ました。

同時に，河川をある幅で区切って他の範囲には水が流れないようにして，その中だけに成長阻害をする物質を中和させる薬品を流し込んで経過を見た場合は，その区切った範囲にいる魚たちは独立ではないので，たとえ何匹いようとも，標本抽出した魚たちの平均値や中央値を使って解析をするのがよい，という認識を得ました。

はじめの例が管理されていない場合で，次の例が管理されている場合だと理解しています。このような認識であっているでしょうか。

No.12180　Re: どこまでが独立なのでしょうか　　【青木繁伸】　2010/02/26(Fri) 08:18

> 区切った範囲にいる魚たちは独立ではないので，たとえ何匹いようとも，標本抽出した魚たちの平均値や中央値を使って解析をするのがよい，という認識

やはり，その考え方には納得できません。
遺伝的に等質な実験動物を使って試験するとき，管理されて等質とはいえ，個々の動物は独立なデータとして扱うでしょう。つまり，遺伝的に等質と行っても（たとえクローンでも），ある刺激に全く同じ反応をするわけではないからです。

No.12182　Re: どこまでが独立なのでしょうか　　【Sai】　2010/02/26(Fri) 16:04

確かにその通りですね。

うーん，なんだかよくわからなくなってきました。
少し整理させてください。

擬似反復というものには2種類あるものだと理解しています。一つは経時データでもう一つは空間的に相関している場合。

最初の経時データが擬似反復になるのはわかります。同じ個体から何度もデータを取ればそれは独立なデータとしては扱えないでしょう。

私が悩んでいるのは空間的に独立でない場合なのです。例えば植物は近接していればお互い何かしらの影響を与え合うでしょう（光の奪い合いなど）。しかし，魚や実験動物の場合はどうなるのか，また植物の例でも擬似反復にならないためにはどうすればいいのか，そのあたりがで混乱してしまっています。

青木先生の言うとおり，実験動物はたとえクローンでもお互い独立ということは理解しました。しかし，逆に空間的に擬似反復する場合というのはどういう場合なのでしょうか。また，擬似反復した場合はどのように処理すればよいのでしょうか。すいません，また最初の質問に戻ってしまいました。

もし何かわかりやすい例があればご紹介願えないでしょうか。
中々理解できず申し訳ありません。

No.12197　Re: どこまでが独立なのでしょうか　　【知ったかぶり】　2010/02/28(Sun) 11:37

ある植物の生育に対する肥料a,b,cの効果を調べたいとします.実験圃場を9つ用意して,それぞれの肥料について3反復ずつランダムに圃場を割り当てた場合,得られるデータは独立です.実験圃場を3つしか用意できなかった場合,ふつーは各圃場に3区画を設けて,その区画に肥料a,b,cを一つずつ割り振ります.この場合,各区画のデータは圃場ごとに対応しているので独立ではありません.こういったケースを空間的な擬似反復と呼ぶようです.
擬似反復というとネガティブなイメージがあって,避けなければならないとお考えのようですが,単にデータの構造を表す言葉ととらえた方がよいと思います.要はデータ構造にあった解析を行えばよいということです（上記の例で言えば,圃場をブロック因子として処理すればよい）.

No.12232　Re: どこまでが独立なのでしょうか　　【Sai】　2010/03/06(Sat) 05:45

返信が遅れてしまいました。申し訳ありません。

なるほど，カテゴリカル変数として圃場を考慮してやればよいということですね。最初の「実験圃場を9つ用意して,それぞれの肥料について3反復ずつランダムに圃場を割り当てた場合」というのも，仮にその実験圃場がさらに9つ，別の場所で用意されていたなら，場所というカテゴリカル変数を作ってやればよい，と。

つまり独立でないデータ（例の場合だと入れ子型でしょうか）を考慮するときは，そのもう一段階上のカテゴリを説明変数に加えてやればよい，ということですね？擬似反復も同じ処理で考慮できる，と。

理解が進みました。ありがとうございます。