「統計学関連なんでもあり」の過去ログ--- 048

No.22446　母集団から抽出した複数の値の平均の下側確率　　【tosh】　2017/10/05(Thu) 21:41

統計初心者です。

ある母集団から無作為抽出した，
サイズ 29，平均 155.7， SD 5.6 の標本があります。
ほぼ正規分布しています。

平均 - 2SD = 144.5 なので，
母集団から新たに1値を取り出した場合に，
それが 144.5より小さい値である確率は，
標準正規分布表の片側確率から約2.3% になると思います。

たとえば今後，母集団から新たに5値を取り出すことを考える場合，
その5値の平均が144.5より小さい値である確率も，
やはり約2.3%になると言えるでしょうか？

平均となると，取り出した値の大小によって変わるので，
単純に144.5より小さいか大きいか以外にも
考えるべきことがないのだろうか，と腑に落ちません。

No.22447　Re: 母集団から抽出した複数の値の平均の下側確率　　【まさき君】　2017/10/06(Fri) 08:18

正規分布の元である中心極限定理からそうなります。
「中心極限定理」について調べてみれば納得できるかと。

No.22448　Re: 母集団から抽出した複数の値の平均の下側確率　　【tosh】　2017/10/06(Fri) 09:38

アドバイスありがとうございます。
中心極限定理を調べ，
「標本平均の分布は，
　サイズを大きくするほど正規分布に近づく」
と理解しました。
おかげさまで，疑問点が明確になりました。

たとえば，新たにとる値が1000個で，
1000というのが十分「大きい」と言って良さそうなら，
取り出された1000個の値の平均（標本平均）はほぼ正規分布する，
と考えてよいことになり，
「標本平均が-2SD点(144.5)より小さい値になる確率は2.3%」…(a)
と言ってよいのかな，と思いました。

しかし今回，新たにとる値が5個のように「小さい」場合は，
正規分布とは異なる分布をしていることになるので，
(a)の主張はできないのではないか，という
もやもや感が残るのです。

No.22450　Re: 母集団から抽出した複数の値の平均の下側確率　　【qq】　2017/10/06(Fri) 18:37

1000個の標本を取り出して得られた平均は，何回やっても2SDの範囲に全て入ってしまうだろうな思います。
仮に母集団全体を測定できるとすると，何回数えても母集団の平均しか出てこないので，「標本平均が-2SD点(144.5)より小さい値になる確率」はゼロ％になるんじゃない？
5つの標本の平均，1000個の標本の平均，無限個の標本の平均を考える時，それぞれ異なる結果になると思うね。
最初の「ある母集団」と，そこからn個の標本を取り出し得られた平均からなる母集団は，別物になると思います。

No.22451　Re: 母集団から抽出した複数の値の平均の下側確率　　【青木繁伸】　2017/10/07(Sat) 20:18

母平均 = μ = 155.7，母標準偏差 = σ = 5.6 から，サンプルサイズ n の標本を取り出したとき，その標本平均は理論的に \bar{x} = μ，平均の標準誤差は σ/ \sqrt{n}

シミュレーションの試行回数を trial = 1000000 として，

(1) サンプルサイズ = 1

> 母集団から新たに1値を取り出した場合に，
> それが 144.5より小さい値である確率は，
> 標準正規分布表の片側確率から約2.3% になると思います。
> x = rnorm(trial, mean=155.7, sd=5.6) # trial 回シミュレーション
> mean(x < 144.5) # mean の使い方に戸惑うかも知れないが， sum(s < 144.5)/trial のこと
[1] 0.022514
はい，正解です。

(2) サンプルサイズ = 5

> たとえば今後，母集団から新たに5値を取り出すことを考える場合，
> その5値の平均が144.5より小さい値である確率も，
> やはり約2.3%になると言えるでしょうか？
> x = matrix(rnorm(5*trial, mean=155.7, sd=5.6), 5, trial) # 5 行 trial 列のサンプルデータ
> y = apply(x, 2, mean) # trial 回ごとの平均値
> mean(y < 144.5) # その平均値が 144.5 未満の確率
[1] 3e-06         # おー！とっても小さい
なぜ？
> mean(y)
[1] 155.7009 # 平均値の平均値は母平均に近く，かつ，
> sd(y)
[1] 2.504464 # そのばらつきはとっても小さい！！平均が 144.5 以下になることはほとんどない。
だからこそ，標本平均で母平均を推定できるんです。

No.22453　Re: 母集団から抽出した複数の値の平均の下側確率　　【tosh】　2017/10/11(Wed) 13:41

青木先生，はじめまして。
ご指導ありがとうございます。

r をインストールして，ご教示いただいたコードを試してみました。
このような方法で，実際に大標本を作って，検証ができるのですね。
r scriptは初めてですが，記述がとてもシンプルで驚きました。

（確かに，mean(x < 144.5) という書き方は，シンプル過ぎて戸惑います）

最初の母集団Aから，（5値を取り出し，その平均値をとる）
という試行を，実際に100万回してみて，
100万個の要素からなる集団Bを作った。
集団Bのばらつきは，母集団Aのばらつきよりもずっと小さかった。

集団Bは，母集団Aよりも，とんがった形をしていて，
母平均を鋭敏に指し示す形になっているのが想像できました。

まさき君さん，qqさんもありがとうございました。
私のNo.22448での理解はかなり誤っていましたね。

もう少し，色々試してみます。