「統計学関連なんでもあり」の過去ログ--- 043

No.12391　統計について　　【ひろし】　2010/04/06(Tue) 15:30

はじめまして，初歩的な質問なんですがよろしければご教授ください。

3500人の生徒に帽子を選んで着てもらいます。
帽子の色は，赤，青，白，黒・・・など，全部で33色から自由に選んでいただきます。
そして，
3500人の生徒にランダムに並んでいってもらいます。
そして着用している帽子の色を一人ずつ数えて行くんですが。
1人目は赤，2人目は黒・・・・
というような感じでどの色の帽子を何人が着用しているのかを数えていくんですが
全員調べるのには少し大変です。

1番目が○色の帽子で×人の生徒が着用。2番目が×色の帽子で○人の生徒が着用・・・
という風に33色のなかから選ばれた色の人数とランキングを付けます。
最初から何人（何％）までの生徒の帽子を数えれば，ある程度，信頼できる統計的データの予測値がとれますでしょうか？

No.12392　Re: 統計について　　【青木繁伸】　2010/04/06(Tue) 15:47

「統計的データの予測値」とはそれぞれの色の割合のことですか。
3500を有限母集団と考えれば，有限母集団からの標本調査ということですから，どの程度の精度で知りたいかをはっきりさせれば，必要なサンプルサイズは計算できるでしょう。

ところで，このお話は，たとえ話なんでしょうね。

No.12394　Re: 統計について　　【ひろし】　2010/04/06(Tue) 16:36

そうです，たとえ話でございます。
「統計的データの予測値」，とはそれぞれの色の割合のことです。
そしてその，それぞれの色の割合からそれぞれの色の帽子を着ている人数を予測します。
必要といたします精度は，○色が約○○人という感じの，整数の範囲で出せる予測で十分です。よろしくお願いいたします。

No.12395　Re: 統計について　　【青木繁伸】　2010/04/06(Tue) 17:38

> 必要といたします精度は，○色が約○○人という感じの，整数の範囲で出せる予測

そう言うことではなく，真値に対しての予測値の精度ということです。「約何人」の「約」がどの程度の正確性が必要かということです。

たとえ話についての言及は，たとえ話はしばしば不適切な議論にしかならないというここの掲示板における経験論からのものです。つまり3500というのは有限母集団なのか取りあえず無限母集団から取り出した一次標本かということにも関係するんじゃないでしょうか？

No.12398　Re: 統計について　　【ひろし】　2010/04/06(Tue) 22:45

正確性は真値に対して，＋－0.1人の精度，＋－0.5人の精度，＋－1.0人の精度3パターンについてサンプルサイズを求めたいです。
3500というのは有限母集団です。

No.12401　Re: 統計について　　【青木繁伸】　2010/04/07(Wed) 01:06

それだけの精度をお望みなら，3500を全数調査する必要があると思います。

No.12402　Re: 統計について　　【ひろし】　2010/04/07(Wed) 10:18

では350人程度のサンプルサイズ（10％）ならどのくらいの精度がでますでしょうか？
ほんとはそこまでの精度を必要としていないんですが，おおよその色の割合配分がわかればいいんです。

No.12403　Re: 統計について　　【青木繁伸】　2010/04/07(Wed) 12:07
# 以下のようにシミュレーションしてみましょう
# i=1,2,...,33 番目の実際の人数 n[i] が，346/√i になるような，広義のジップの法則に従うデータを考えます
n.i <- round(346/sqrt(1:33))
# i=1,2,...,33 の人数の合計は sum(n.i) で，3498 人になります（2人たりないけどまあこれで行く）
# 1～33 までの数をそれぞれ n[i] 個ずつ用意し，全部で 3498 個の要素を持つベクトル x とします
x <- rep(1:33, n.i)
# length(x) は 3498 個になります
# この　3498 個の1～33の数を有限母集団として，そこから350の標本を採り，1～33の数が何個ずつあるか集計します
# どれくらい結果がばらつくかだけを見ようと思うので，そのうちで「1」が何個あったかだけを見ます
# という実験を 10000 回繰り返します
# まえもって，乱数の初期値を設定しておきます（何回やっても同じ結果になります）
set.seed(777)
y <- replicate(10000, sum(sample(x, 350)==1))
# y には，1が何個ずつあったか，10000回分の結果が含まれています。
# その集計結果を見てみましょう
table(y)
以下のような結果になります（見やすいように空行を挿入しました）
y

 14  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36 
  2   1   8  14  21  38  58 104 153 193 291 341 461 487 602 731 739 795 748 683 

 37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55 
650 602 510 432 363 281 196 163 114  77  47  30  28  16   7   9   1   3   1 
これは，「10000回の実験で，母集団中に一番多い（346個あるはずの）1という数が14回しか現れなかったのが2回，18回現れたのが1回，..., 34回現れたのが795回，..., 55回も現れたのが1回ということです。ずいぶんばらついていますね。これだけみても，とても10%抽出では満足のいく精度でないことは明らかです。 2，3，..., 33 までの数の出現数を同時に考えると，精度はどんどん低くなっていきます。

一番多かったのは，34個出現したのが 795回ですから，3498個の数の中に1という数が含まれている割合は34/350ということになりますから，1という数はもとの母集団に 3498×34/350=339.8057個あるというのが，推定値ですね。真値は346個ですから，これまたずいぶん外れています。

10000回の実験のある1回の結果を示すと，以下のように，1～33の順に頻度が減少するということではないことが一目瞭然です。これでは，母集団に含まれる数を多い順に推定することは無理です。
> z <- sample(x, 350)
> table(z) # 一番多いのは1，次は2，3位は同率で3と11，以下，5,6,21,22,13,...
z
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
43 23 18  8 17 16  9 10  8 12 18  7 12  4  8  7  8 11  4 10 14 12  5  9  9  4 

27 28 29 30 31 33 
11  7 11  9  5  1 
3400 位も取りだしたら十分だろうと思うかも知れませんが，さにあらず。
 y

  323  324  325  326  327  328  329  330  331  332  333  334  335  336  337  338 
    2    1    4    4   20   36   69  136  272  437  674  909 1167 1363 1389 1173 

  339  340  341  342  343  344  345 
 1002  688  381  183   73   13    4 
まだ相当にばらついている。

推定結果は，1～33 の数がどのように分布しているかにもよります。ジップの法則に従うといっても乗数によって変わります。他に，一様分布の場合だと，1～33の数は106個ずつ（全部で3498個）ということになりますが，10000回の実験結果はやはり，以下のようにばらつきます。
y

  1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16 
  1    4   35   88  252  447  729  973 1155 1282 1320 1100  926  665  413  281 

 17   18   19   20   21   22   23 
149   92   49   20   11    5    3 

No.12417　Re: 統計について　　【ひろし】　2010/04/09(Fri) 08:14

プログラミングや応用的な数学の式は私の頭ではわかりませんが，なんとなく意味は理解できました。
青木さんが出されている350人のサンプルでの検証結果
14人現れたのが2回で　14×2＝28
18人現れたのが1回で　18×1＝18
・
・
・
という風に14人から55人までの，人数×出現回数の積の数値を合算していきまして，現れた人数（55－14＋1）で割って平均値を出すというのは真値への精度を高めることはできないでしょうか？

No.12421　Re: 統計について　　【青木繁伸】　2010/04/09(Fri) 11:59

できないでしょう。

あなたの計算式でそれを計算すると 8238.571 になりますでしょう？その値は，何を表しますか？
あなたが欲しい推定値の割り算の分母は 10000 でないといけません。そして，その値は，34.602 ですが，それは要するに何回も調査を行ったときの平均値です。平均値はバラツキのあるデータの代表値ですが，その代表値は点推定値であって，実際に一回の標本調査を行うと，その数値の前後にばらつきます。あなたの望みは，バラツキの小さい推定値を得たいなあということでしたが，バラツキは大きいのですよというのがシミュレーションの結果でした。