No.13792 カウントデータのカイ自乗検定について  【ポラーノ広場】 2010/11/19(Fri) 09:58

いつも掲示板を参考にしております。

一定面積の領域A(たて100×よこ100)の中に500個の点が散 布されています。各点には座標(x,y)があります。この領域Aの中に,小さい正方形(たて20×よこ20)の枠Bをランダムに39回置いて,毎回小さい 正方形の枠Bの中の点の数を数えます。このとき,枠Bは領域Aからはみ出さないこととします。

領域Aの中の点がランダムに分布しているか どうかを検定したいと思います。もしポアソン分布に従うとすると,枠の中に入る点の個数の期待値は20個(=500×(400/10000))になると思 います。ランダム性を検定するにはカイ自乗検定をするのがよろしいでしょうか?それともコルモゴロフ・スミルノフ検定がよろしいでしょうか?39回の結果 が下記度数分布の場合,Rを用いて検定方法をご教示いただけないでしょうか? よろしくお願いいたします。
 個数  25 26 27 28 29 30 31 32 33 34 35 36 37 39 40 45 47 
 ------------------------------------------------------------
 度数   2 2 2 5 2 2 2 3 3 3 4 2 1 3 1 1 1

No.13801 Re: カウントデータのカイ自乗検定について  【青木繁伸】 2010/11/19(Fri) 21:08

どちらが検出力が高いか書いてある文献はないのでしょうかね?
ないとすれば,自分でシミュレーションしてみてどちらの検出力が高いか確かめるしかないかな?
ところで,示されたデータは実際のデータですか?こんな状態のデータが普通と言うことなら,絶対的に帰無仮説が間違えているとしかいいようがないような。「枠Bは領域Aからはみ出さないこととします」という条件が自然な(正当な)条件かどうか疑問??

No.13802 Re: カウントデータのカイ自乗検定について  【ポラーノ広場】 2010/11/19(Fri) 21:27

青木先生コメントありがとうございます。

このデータはシミュレーションで,Rの一様乱数で作ったものです。
 x<-runif(500,0,100)
 y<-runif(500,0,100)
plot(x,y,xlim=c(0,100),ylim=c(0,100))
実際のデータはこれほどランダムではありません。失礼しました。
枠Bが領域Aからはみ出さないようにしたのは,境界線付近で点の数が
少なくなるのを防ぐためです。

No.13803 Re: カウントデータのカイ自乗検定について  【青木繁伸】 2010/11/19(Fri) 21:48

> 枠Bが領域Aからはみ出さないようにしたのは,境界線付近で点の数が
少なくなるのを防ぐためです

それは,わかります。幾何学上,実際そうなんですから。
しかし,それが,「実際の場合」を反映しているのかどうなのか,私にはわかりません。

No.13804 Re: カウントデータのカイ自乗検定について  【青木繁伸】 2010/11/19(Fri) 22:14

> x<-runif(500,0,100)
> y<-runif(500,0,100)
> plot(x,y,xlim=c(0,100),ylim=c(0,100))
> n <- numeric(1000000)
> for (loop in seq_along(n)) {
+ lt <- runif(1, 0, 80)
+ n[loop] <- sum(lt < x & x < lt+20 & lt < y & y < lt+20)
+ }
> barplot(table(n))
を やってみるとわかるけど,元のデータポイントが500個しかないので,シミュレーションしてみても,特定の観察度数が少ないなど,特定のキレイな分布関数 に従うとは言えないような結果ですね(つまり,試行数をいくら増やしても「期待値は20個」には収束しない)。つまり,大数の法則が成り立たない。(い や,そもそも理論的な期待値は毎回異なり,20でもないのだけど。その文脈では,ちゃんと大数の法則に従うんだけど)。
当然ではあるが,毎回の試 行で x<-runif(500,0,100); y<-runif(500,0,100) をして,その中から 1 回だけ 20×20 の領域を設定してその中のデータポイントを観察するなら,期待値20のキレイな分布になるでしょう。平均値も 20 に近いものになります(mean(n) をやってご覧じろ)。
> n <- numeric(1000000)
> for (loop in seq_along(n)) {
+ x<-runif(500,0,100)
+ y<-runif(500,0,100)
+ lt <- runif(1, 0, 80)
+ n[loop] <- sum(lt < x & x < lt+20 & lt < y & y < lt+20)
+ }
> barplot(table(n))
あなたが,シミュレートしたいのは前者?それとも,後者?いやいや,いずれでもない?

No.13805 Re: カウントデータのカイ自乗検定について  【ひの】 2010/11/19(Fri) 23:18

 分布がランダムかどうかを調べるのが目的なら,生物群集の教科書をお調べになればさまざまな手法が載っています。

 生物群集の多変量解析(小林四郎 1995)
 動物群集研究法(I),動物群集研究法(II) 木元新作 (1976.1982)  

など。いずれも今は入手は難しいですが大学の図書館ならおいてあるでしょう。

No.13811 Re: カウントデータのカイ自乗検定について  【ポラーノ広場】 2010/11/20(Sat) 10:50

青木先生コメントありがとうございます。1点訂正があります。上記に示した
分布表のデータは枠Bを25×25として得られたものです。大変失礼しました。
よって,期待値は31個になります。この期待値から,枠B(25×25)の中に点が
n個入る確率をポアソン分布に従って地道に求めてみたいと思います。
小生が試してみたいのは,上記の枠Bを任意に動かす手法が可能かどうかです。
それがランダムからのずれを判定できるかどうかです。
仕事場にしかRを計算できるPCがないので,来週トライしてみます。

ひの様,参考文献のご提示ありがとうございます。従来の区画法の方法はすで
に試してみました。区画法の手法を小生の上記の方法に適用できるかどうか,
もう少し検討してみます。
お二人に感謝いたします。ありがとうございました。

No.13813 Re: カウントデータのカイ自乗検定について  【ひの】 2010/11/20(Sat) 11:33

 従来の区画法についてお調べになったのならご存知だと思いますが,分布の様式を問題にするとき,常にスケールの 問題がつきまといます。設定した区画サイズより小さいスケールの分布の様式は調べられません。大きなスケールではランダム分布と言えても,スケールを小さ くしていくとその内部は集中分布になっていたり一様分布になっていたりします。もちろんその逆の場合もあります。
 個々の位置を精密な座標データとして取ることが可能なら区画サイズによる制約のない解析をすることができますので,可能ならそういうデータの取り方のほうがベターです。

No.13815 Re: カウントデータのカイ自乗検定について  【ポラーノ広場】 2010/11/20(Sat) 12:53

区画法の課題は上述したように承知しているつもりです。今回の質問は区画法のスケールについてではありません。また,その他の区画法以外の方法もすでに試しております。
小生の方法(検討中)について課題もあることを承知で,質問をさせていただきました。

No.13816 Re: カウントデータのカイ自乗検定について  【青木繁伸】 2010/11/20(Sat) 19:32

専門でもないのでよくわからなのですけど,おおもとの「一定面積の領域A(たて100×よこ100)の中に500 個の点が散布されています」というデータがある状態である(一様であるとかないとか)を検定すべきで,そこから再サンプリングしてどうのこうのというの は,やはりちょっと違うのではないかと思いますね。

No.13817 Re: カウントデータのカイ自乗検定について  【ひの】 2010/11/20(Sat) 20:15

>枠Bが領域Aからはみ出さないようにしたのは,境界線付近で点の数が
少なくなるのを防ぐためです。

  ここなんですが,この場合周辺のデータが拾い上げられる確率が小さくなるので,これはこれで問題ではないかと思います。領域の外周すれすれのデータは「領 域からはみ出さないようにランダムに設定した区画」に拾われる確率が極めて小さくなります。領域内のデータが均等な確率で拾われない区画の設定の仕方はは たしてランダムと言えるのでしょうか?
 今回のように領域に対して区画サイズがかなり大きい場合は特にその問題も大きいと思います。

No.13818 Re: カウントデータのカイ自乗検定について  【青木繁伸】 2010/11/20(Sat) 20:37

> この場合周辺のデータが拾い上げられる確率が小さくなるので,これはこれで問題ではないかと思います。領域の外周すれすれのデータは「領域からはみ出さな いようにランダムに設定した区画」に拾われる確率が極めて小さくなります。領域内のデータが均等な確率で拾われない区画の設定の仕方ははたしてランダムと 言えるのでしょうか?

まあ,仮定の問題に依るのでしょうけど,ラップアラウンドということも考えてよいのかも知れませんけど。

いずれにしても,再サンプリングの是非が問われるのは避けられないのかなという気がします。(再サンプリングを何回やるのかとか,再サンプリングの面積の設定とか)。
い ろいろな新しい処理法(検定法)というのは,常に提案されて然るべきでしょうけど,数年,数十年の期間内で考えると,それまでに誰も考えなかった方法を今 回考えたというのは,なかなかあり得ない話ではないかなあとも,普通は考えるのではないかなと思います(オブラートに包んで申し上げていますけど)。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る