No.09982 部分標本を用いた信頼区間について  【さんちゃん】 2009/06/03(Wed) 00:31

ある村の10,000人の母集団から無作為に100人を抽出して例えば身長のデータを実測し,その村の平均身長と標本誤差を計算して,95%信頼区間を計算することは普通にできます。
こ こで,たまたま実測した100人の標本データのうち,20代の人のデータが30人分あったとします。そうすると,その30人のデータとその村の20代の総 人口(仮に3,000人だったとします)から,その村の20代の人の平均身長とその標本誤差を計算し,95%信頼区間を算出してそれが95%の信頼区間と して成り立つのかという疑問を持ちました。つまり,この村の20代3,000人を母集団として,そこからダイレクトに30人を無作為抽出して計算した 95%信頼区間と等価として扱えるかどうかということです。
10,000人から無作為に100人を抽出する場合,20代が30人選ばれる標本平均 の組だけを全て集めると,その度数分布は3,000人の20代の母集団からダイレクトに30人の標本を無作為抽出して計算した全ての組合せの標本平均の度 数分布と同じ形になるので,理論上は95%信頼区間としても問題ないと思うのですが…もともと10,000人から100人を抽出する調査は,年代に関係な い平均身長の推計をするためのものなので,後付け(結果として出てきた標本の部分データを用いて)で特定(この場合20代)の部分母集団の推計をしても良 いものかどうかということです。
よろしくお願いします。

No.10014 Re: 部分標本を用いた信頼区間について  【さんちゃん】 2009/06/07(Sun) 16:41

95%信頼区間については,以前この掲示板でもスネデカー,コクランの「統計的方法」7ページからの引用があり, 「標本が抽出されるまえにわれわれは,予期される信頼判定が真である確率を定めることができる。すなわちつぎのように言うことができる。”自分は無作為標 本を抽出し,それによって区間推定をおこなう。そのときの区間が母集団比率をおおう確率は0.95である”と。しかしながら,標本が抽出されたのちでは, 信頼判定は真であるか偽であるかのどちらかである。」
この文章から95%信頼区間の解釈はそんなに単純ではない感じがしますが,先のある村の例の 場合,抽出後の100人データの中から20代のデータだけを選んで,それをもって95%信頼区間を言う場合でも,100人の標本を抽出する前に「抽出する 100人のデータの中にもし20代のデータが含まれているとすれば,それらのデータから計算される95%信頼区間が20代の母集団の平均身長をおおう確率 は0.95である。」と言えば,95%信頼区間として成り立つような気がしてきました。
前掲の7ページではさらに「この論法は難解ではあるが,信 頼区間判定の有効性を弱めるものではない。信頼判定をある場合に適用したとき,その判定が正しい95%の判定のひとつであるか,あるいは誤った5%のひと つであるかは知るわけにはいかない(からだ)。」{注:引用文最後の(からだ)は私が勝手に解釈して付けました。}
とあり,標本抽出後では,その 信頼区間の95%という確率はもう厳密には言えなくなっているけれども,抽出したデータの信頼区間に母集団の平均値が入っているかいないかは,分からない わけなので,「この信頼区間は標本抽出する前は信頼判定の確率が95%あったんだから,今あるこの結果が正しい95%の判定の中に入っていると見てくれて もそうは大きくまちがってない…だろうよ…」というニュアンスでこの推計値をみんなに伝えればいいのかと。
どうでしょうか…

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る