No.22446 母集団から抽出した複数の値の平均の下側確率  【tosh】 2017/10/05(Thu) 21:41

統計初心者です。

ある母集団から無作為抽出した,
サイズ 29, 平均 155.7, SD 5.6 の標本があります。
ほぼ正規分布しています。

平均 - 2SD = 144.5 なので,
母集団から新たに1値を取り出した場合に,
それが 144.5より小さい値である確率は,
標準正規分布表の片側確率から約2.3% になると思います。

たとえば今後,母集団から新たに5値を取り出すことを考える場合,
その5値の平均が144.5より小さい値である確率も,
やはり約2.3%になると言えるでしょうか?

平均となると,取り出した値の大小によって変わるので,
単純に144.5より小さいか大きいか以外にも
考えるべきことがないのだろうか,と腑に落ちません。

No.22447 Re: 母集団から抽出した複数の値の平均の下側確率  【まさき君】 2017/10/06(Fri) 08:18

正規分布の元である中心極限定理からそうなります。
「中心極限定理」について調べてみれば納得できるかと。

No.22448 Re: 母集団から抽出した複数の値の平均の下側確率  【tosh】 2017/10/06(Fri) 09:38

アドバイスありがとうございます。
中心極限定理を調べ,
「標本平均の分布は,
 サイズを大きくするほど正規分布に近づく」
と理解しました。
おかげさまで,疑問点が明確になりました。

たとえば,新たにとる値が1000個で,
1000というのが十分「大きい」と言って良さそうなら,
取り出された1000個の値の平均(標本平均)はほぼ正規分布する,
と考えてよいことになり,
「標本平均が-2SD点(144.5)より小さい値になる確率は2.3%」…(a)
と言ってよいのかな,と思いました。

しかし今回,新たにとる値が5個のように「小さい」場合は,
正規分布とは異なる分布をしていることになるので,
(a)の主張はできないのではないか,という
もやもや感が残るのです。

No.22450 Re: 母集団から抽出した複数の値の平均の下側確率  【qq】 2017/10/06(Fri) 18:37

1000個の標本を取り出して得られた平均は,何回やっても2SDの範囲に全て入ってしまうだろうな思います。
仮に母集団全体を測定できるとすると,何回数えても母集団の平均しか出てこないので,「標本平均が-2SD点(144.5)より小さい値になる確率」はゼロ%になるんじゃない?
5つの標本の平均,1000個の標本の平均,無限個の標本の平均を考える時,それぞれ異なる結果になると思うね。
最初の「ある母集団」と,そこからn個の標本を取り出し得られた平均からなる母集団は,別物になると思います。

No.22451 Re: 母集団から抽出した複数の値の平均の下側確率  【青木繁伸】 2017/10/07(Sat) 20:18

母平均 = μ = 155.7,母標準偏差 = σ = 5.6 から,サンプルサイズ n の標本を取り出したとき,その標本平均は理論的に \bar{x} = μ, 平均の標準誤差は σ/ \sqrt{n}

シミュレーションの試行回数を trial = 1000000 として,

(1) サンプルサイズ = 1

> 母集団から新たに1値を取り出した場合に,
> それが 144.5より小さい値である確率は,
> 標準正規分布表の片側確率から約2.3% になると思います。
> x = rnorm(trial, mean=155.7, sd=5.6) # trial 回シミュレーション
> mean(x < 144.5) # mean の使い方に戸惑うかも知れないが, sum(s < 144.5)/trial のこと
[1] 0.022514
はい,正解です。

(2) サンプルサイズ = 5

> たとえば今後,母集団から新たに5値を取り出すことを考える場合,
> その5値の平均が144.5より小さい値である確率も,
> やはり約2.3%になると言えるでしょうか?
> x = matrix(rnorm(5*trial, mean=155.7, sd=5.6), 5, trial) # 5 行 trial 列のサンプルデータ
> y = apply(x, 2, mean) # trial 回ごとの平均値
> mean(y < 144.5) # その平均値が 144.5 未満の確率
[1] 3e-06 # おー!とっても小さい
なぜ?
> mean(y)
[1] 155.7009 # 平均値の平均値は母平均に近く,かつ,
> sd(y)
[1] 2.504464 # そのばらつきはとっても小さい!!平均が 144.5 以下になることはほとんどない。
だからこそ,標本平均で母平均を推定できるんです。

No.22453 Re: 母集団から抽出した複数の値の平均の下側確率  【tosh】 2017/10/11(Wed) 13:41

青木先生,はじめまして。
ご指導ありがとうございます。

r をインストールして,ご教示いただいたコードを試してみました。
このような方法で,実際に大標本を作って,検証ができるのですね。
r scriptは初めてですが,記述がとてもシンプルで驚きました。

(確かに,mean(x < 144.5) という書き方は,シンプル過ぎて戸惑います)

最初の母集団Aから,(5値を取り出し,その平均値をとる)
という試行を,実際に100万回してみて,
100万個の要素からなる集団Bを作った。
集団Bのばらつきは,母集団Aのばらつきよりもずっと小さかった。

集団Bは,母集団Aよりも,とんがった形をしていて,
母平均を鋭敏に指し示す形になっているのが想像できました。

まさき君さん,qqさんもありがとうございました。
私のNo.22448での理解はかなり誤っていましたね。

もう少し,色々試してみます。

● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る