No.12391 統計について  【ひろし】 2010/04/06(Tue) 15:30

はじめまして,初歩的な質問なんですがよろしければご教授ください。

3500人の生徒に帽子を選んで着てもらいます。
帽子の色は,赤,青,白,黒・・・など,全部で33色から自由に選んでいただきます。
そして,
3500人の生徒にランダムに並んでいってもらいます。
そして着用している帽子の色を一人ずつ数えて行くんですが。
1人目は赤,2人目は黒・・・・
というような感じでどの色の帽子を何人が着用しているのかを数えていくんですが
全員調べるのには少し大変です。

1番目が○色の帽子で×人の生徒が着用。2番目が×色の帽子で○人の生徒が着用・・・
という風に33色のなかから選ばれた色の人数とランキングを付けます。
最初から何人(何%)までの生徒の帽子を数えれば,ある程度,信頼できる統計的データの予測値がとれますでしょうか?

No.12392 Re: 統計について  【青木繁伸】 2010/04/06(Tue) 15:47

「統計的データの予測値」とはそれぞれの色の割合のことですか。
3500を有限母集団と考えれば,有限母集団からの標本調査ということですから,どの程度の精度で知りたいかをはっきりさせれば,必要なサンプルサイズは計算できるでしょう。

ところで,このお話は,たとえ話なんでしょうね。

No.12394 Re: 統計について  【ひろし】 2010/04/06(Tue) 16:36

そうです,たとえ話でございます。
「統計的データの予測値」,とはそれぞれの色の割合のことです。
そしてその,それぞれの色の割合からそれぞれの色の帽子を着ている人数を予測します。
必要といたします精度は,○色が約○○人という感じの,整数の範囲で出せる予測で十分です。よろしくお願いいたします。

No.12395 Re: 統計について  【青木繁伸】 2010/04/06(Tue) 17:38

> 必要といたします精度は,○色が約○○人という感じの,整数の範囲で出せる予測

そう言うことではなく,真値に対しての予測値の精度ということです。「約何人」の「約」がどの程度の正確性が必要かということです。

たとえ話についての言及は,たとえ話はしばしば不適切な議論にしかならないというここの掲示板における経験論からのものです。つまり3500というのは有限母集団なのか取りあえず無限母集団から取り出した一次標本かということにも関係するんじゃないでしょうか?

No.12398 Re: 統計について  【ひろし】 2010/04/06(Tue) 22:45

正確性は真値に対して,+−0.1人の精度,+−0.5人の精度,+−1.0人の精度3パターンについてサンプルサイズを求めたいです。
3500というのは有限母集団です。

No.12401 Re: 統計について  【青木繁伸】 2010/04/07(Wed) 01:06

それだけの精度をお望みなら,3500を全数調査する必要があると思います。

No.12402 Re: 統計について  【ひろし】 2010/04/07(Wed) 10:18

では350人程度のサンプルサイズ(10%)ならどのくらいの精度がでますでしょうか?
ほんとはそこまでの精度を必要としていないんですが,おおよその色の割合配分がわかればいいんです。

No.12403 Re: 統計について  【青木繁伸】 2010/04/07(Wed) 12:07

# 以下のようにシミュレーションしてみましょう
# i=1,2,...,33 番目の実際の人数 n[i] が,346/√i になるような,広義のジップの法則に従うデータを考えます
n.i <- round(346/sqrt(1:33))
# i=1,2,...,33 の人数の合計は sum(n.i) で,3498 人になります(2人たりないけどまあこれで行く)
# 1〜33 までの数をそれぞれ n[i] 個ずつ用意し,全部で 3498 個の要素を持つベクトル x とします
x <- rep(1:33, n.i)
# length(x) は 3498 個になります
# この 3498 個の1〜33の数を有限母集団として,そこから350の標本を採り,1〜33の数が何個ずつあるか集計します
# どれくらい結果がばらつくかだけを見ようと思うので,そのうちで「1」が何個あったかだけを見ます
# という実験を 10000 回繰り返します
# まえもって,乱数の初期値を設定しておきます(何回やっても同じ結果になります)
set.seed(777)
y <- replicate(10000, sum(sample(x, 350)==1))
# y には,1が何個ずつあったか,10000回分の結果が含まれています。
# その集計結果を見てみましょう
table(y)
以下のような結果になります(見やすいように空行を挿入しました)
y

14 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
2 1 8 14 21 38 58 104 153 193 291 341 461 487 602 731 739 795 748 683

37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
650 602 510 432 363 281 196 163 114 77 47 30 28 16 7 9 1 3 1
こ れは,「10000回の実験で,母集団中に一番多い(346個あるはずの)1という数が14回しか現れなかったのが2回,18回現れたのが1回,..., 34回現れたのが795回,..., 55回も現れたのが1回ということです。ずいぶんばらついていますね。これだけみても,とても10%抽出では満足のいく精度でないことは明らかです。 2,3,..., 33 までの数の出現数を同時に考えると,精度はどんどん低くなっていきます。

一番多かったのは,34個出現したのが 795回ですから,3498個の数の中に1という数が含まれている割合は34/350ということになりますから,1という数はもとの母集団に 3498×34/350=339.8057個あるというのが,推定値ですね。真値は346個ですから,これまたずいぶん外れています。

10000回の実験のある1回の結果を示すと,以下のように,1〜33の順に頻度が減少するということではないことが一目瞭然です。これでは,母集団に含まれる数を多い順に推定することは無理です。
> z <- sample(x, 350)
> table(z) # 一番多いのは1,次は2,3位は同率で3と11,以下,5,6,21,22,13,...
z
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
43 23 18 8 17 16 9 10 8 12 18 7 12 4 8 7 8 11 4 10 14 12 5 9 9 4

27 28 29 30 31 33
11 7 11 9 5 1
3400 位も取りだしたら十分だろうと思うかも知れませんが,さにあらず。
 y

323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338
2 1 4 4 20 36 69 136 272 437 674 909 1167 1363 1389 1173

339 340 341 342 343 344 345
1002 688 381 183 73 13 4
まだ相当にばらついている。

推 定結果は,1〜33 の数がどのように分布しているかにもよります。ジップの法則に従うといっても乗数によって変わります。他に,一様分布の場合だと,1〜33の数は106個 ずつ(全部で3498個)ということになりますが,10000回の実験結果はやはり,以下のようにばらつきます。
y

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 4 35 88 252 447 729 973 1155 1282 1320 1100 926 665 413 281

17 18 19 20 21 22 23
149 92 49 20 11 5 3

No.12417 Re: 統計について  【ひろし】 2010/04/09(Fri) 08:14

プログラミングや応用的な数学の式は私の頭ではわかりませんが,なんとなく意味は理解できました。
青木さんが出されている350人のサンプルでの検証結果
14人現れたのが2回で 14×2=28
18人現れたのが1回で 18×1=18



という風に14人から55人までの,人数×出現回数の積の数値を合算していきまして,現れた人数(55−14+1)で割って平均値を出すというのは真値への精度を高めることはできないでしょうか?

No.12421 Re: 統計について  【青木繁伸】 2010/04/09(Fri) 11:59

できないでしょう。

あなたの計算式でそれを計算すると 8238.571 になりますでしょう?その値は,何を表しますか?
あ なたが欲しい推定値の割り算の分母は 10000 でないといけません。そして,その値は,34.602 ですが,それは要するに何回も調査を行ったときの平均値です。平均値はバラツキのあるデータの代表値ですが,その代表値は点推定値であって,実際に一回の 標本調査を行うと,その数値の前後にばらつきます。あなたの望みは,バラツキの小さい推定値を得たいなあということでしたが,バラツキは大きいのですよと いうのがシミュレーションの結果でした。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る