No.12257 Re: 中心極限定理の意義 【大森】 2010/03/12(Fri) 23:55
大森です。
自己レスです。
その後,本を調べてみましたが,中心極限定理の意義について,私(シロウトレベル)に分かるくらいの説明で,きちんと書いてある教科書ってないですね,,,,。
これまでも分からないままやってきたので,何も困らないと言えば困らないのですが。
欧米の教科書を見ても載っていないので,きちんと説明できる人はなかなか世界にもいないのかもしれませんね。
No.12258 Re: 中心極限定理の意義 【surg】 2010/03/13(Sat) 10:49
> 主張A
> 「母分布がどのような分布に従っていようが,そこから取り出される標本の平均値は正規分布に従う(これが中心極限定理)。したがって母分布が正規分布に 従っていなくても,ある程度サンプルサイズが大きければ,母平均の検定や推定をパラメトリックに行っても良い」と私のような初心者はついつい考えてしまい ます。
これは正しいと考えて良いでしょう(厳密には違うのですが)。
> しかし,もし主張Aが正しいのなら,ノンパラメトリックな検定の一部は不要になるわけで,どうもおかしいと思う。そして同じNo.00469で,青木先生 は「母平均の検定や推定が,母分布が正規分布に従わないときに意味があるかどうかは全くの別問題」と書かれている。
> 全くの別問題だとしたら,つまり,主張Aが間違っているのだとしたら,中心極限定理は,検定の中で,どういう風に役にたっているのでしょうか? これが質問です。
青 木先生は,主張Aが間違っているとは仰っていません。「母平均の検定や推定そのものに意味が無い場合がある」と言っているのです。「歪んだ分布」では平均 値が分布の代表値として適切でないことがあり,中央値等による評価が必要となるのですが,どういうわけかそのような場合はノンパラメトリックな手法しか選 択肢がないということです。
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.html
No.12260 Re: 中心極限定理の意義 【大森】 2010/03/13(Sat) 21:15
surgさん
ありがとうございます。やっぱり投稿して良かったです!
そうすると,
主張B
「歪んでいない分布」の標本平均値は,中心極限定理により,正規分布に従う。また,標本平均値はその「歪んでいない分布」の代表値と考えられる。
したがって,その「歪んでいない分布」が正規分布していなくても,母平均の検定や推定をパラメトリックに行うことに意味がある。
主張C
「歪んだ分布」の標本平均値も,中心極限定理により,正規分布に従う。しかし,その標本平均値はその「歪んだ分布」の代表値としては適切ではない(場合がある)。
したがって,「歪んだ分布」に対してパラメトリックな手法を用いて母平均の検定や推定を行うことは適切ではない(場合がある)。
ということですね。
そうすると,
主張A
「(前半省略)。したがって母分布が正規分布に従っていなくても,ある程度サンプルサイズが大きければ,母平均の検定や推定をパラメトリックに行っても良い」
はやっぱり正しくなくて,
主張A2
「(前半省略)したがって母分布が正規分布に従っていなくても,歪んだ分布ではなく,ある程度サンプルサイズが大きければ,母平均の検定や推定をパラメトリックに行っても良い」
が正しいと言うことでしょうか?
別に教科書に書いてなくてもいいんですが,書いてある本ないかな〜
No.12267 Re: 中心極限定理の意義 【surg】 2010/03/13(Sat) 21:51
> 主張A2
> 「(前半省略)したがって母分布が正規分布に従っていなくても,歪んだ分布ではなく,ある程度サンプルサイズが大きければ,母平均の検定や推定をパラメトリックに行っても良い」
> が正しいと言うことでしょうか?
それでは不十分です。
母 平均の検定や推定をパラメトリックに行うことが妥当であるためには,「平均が分布の代表値として適切であること」だけではなく,「標準偏差が分布の代表値 として適切であること」も必要です。正規分布に従っていなくても,これらの条件を満たしていればパラメトリックな検定も問題なくできるはずです。ただし, 正規性の検定以外にこれらの条件を満たしているかどうかをチェックする方法があればの話ですが。
No.12268 Re: 中心極限定理の意義 【青木繁伸】 2010/03/13(Sat) 22:29
> 主張A2
以下のようなデータを考える。-------------------------以下に示すのはパラメトリック検定の結果
x y
-------------------------
1 156.6706 169.8911
2 158.4021 165.7282
3 167.7800 165.9255
4 159.9784 164.5283
5 160.2866 161.3179
6 168.5996 172.6020
7 162.0250 166.3931
8 152.9770 154.5227
9 156.0081 167.3733
10 157.2725 161.7179
-------------------------
Mean 160.0000 165.0000
SD 5.0000 5.0000
Sum 1600.0000 1650.0000
-------------------------> t.test(x, y, var.equal=TRUE) # これは,パラメトリック検定この 20 個のデータを並べ替え検定で取り扱う 184,756 通りの並べ替えのうち, | Σx-Σy | が 50 以上になったものの割合は,Pr{| Σx-Σy | ≧ 50} = 0.03994 これは,検定の,正確な P 値である
Two Sample t-test
data: x and y
t = -2.2361, df = 18, p-value = 0.03825
一方,
No.12269 Re: 中心極限定理の意義 【大森】 2010/03/14(Sun) 01:02
Surgさん
お答えいただいてありがとうございます。
うーーーーーーんんん,,,,,,,,,,分からない〜。
主張A2が不十分ということなので,主張A3として書き直すと,
主張A3
母分布が正規分布に従っていなくても,「平均が分布の代表値として適切」であり,かつ「標準偏差が分布の代表値として適切」で,ある程度サンプルサイズが大きければ,母平均の検定や推定をパラメトリックに行っても良い。
これなら正しいってことですよね。
そうすると,もともとの私の疑問である中心極限定理の「母分布がどのような分布に従っていようが」の部分は,パラメトリック検定にどういう意味があるのでしょうか?
主張D
中心極限定理だけについて考えると,この定理は「母分布がどのような分布に従っていようが」成り立つ。しかし中心極限定理そのものは母分布がどのような分布に従っていようが成り立つとしても,それをパラメトリック検定に適用できるのは以下の場合だけである」。
(1)正規分布である場合
(2)正規分布でなくても「平均が分布の代表値として適切」であり,かつ「標準偏差が分布の代表値として適切」な場合。
Surgさんの説明を私なりに理解すると主張Dです。もし,主張Dが正しいのならば,もともとの私の疑問
「中心極限定理の「母分布がどのような分布に従っていようが」の部分は,パラメトリック検定にどういう意味があるのでしょうか?」の答えは,「意味はない」となります。まあ,意味がある,ない,という言い方はとーっても乱暴ですが〜。
言いたいのは,中心極限定理の説明って,「なんと,どんな分布でもこうなるんだよ!!!」と強調されていることが多いですよね。「ありがたいだろ!!」って(そんなことないかな)。
で も,結局,どんな分布で中心極限定理が成り立とうが,パラメトリック検定をやるときは,正規分布か,正規分布じゃなくても歪んでなくて平均値を分散が代表 値として適切な場合しか意味がない。さらに,正規分布じゃなくても歪んでなくて平均値を分散が代表値として適切というためには,正規性の検定をするしかな い。中心極限定理の「母分布がどのような分布に従っていようが」の部分は,パラメトリック検定を行う上では,あってもなくてもいい部分ということになりま すよね。
青木先生
青木先生の説明はちょっと私には難解で,まだ理解出来ていません。貼り付けた教科書の一部(?)の出典を教えてください。
No.12270 Re: 中心極限定理の意義 【青木繁伸】 2010/03/14(Sun) 09:43
> 中心極限定理の意義は何なのでしょうか? 検定のどこに役に立っているのでしょうか?
最終的には,検定統計量が正規分布に従う。そして,それにより有意確率(P値)を確定できる(すくなくとも,有意水準より大きいか小さいかは確定できる)。
そのような検定統計量を考えた。
しかし,なんでもかんでも正規分布に従うわけではなく,よく調べたら別の分布だったということもある(正規分布と t 分布の関係)。
また,検定統計量はいろいろ考えられるわけで,そのような検定統計量は正規分布には従わない。当然,中心極限定理などとは無縁。
> 貼り付けた教科書の一部(?)の出典
シーゲルのノンパラメトリック検定の本
No.12271 Re: 中心極限定理の意義 【birei】 2010/03/14(Sun) 10:55
>「母分布がどのような分布に従っていようが,そこから取り出される標本の平均値は正規分布に従う(これが中心極限定理)。
これは間違いです。
中心極限定理(CLT)は,平均と分散が有界(無限でない)な場合だけ「ある程度」有効なだけです。
平均・分散が有界でないケースではCLTは成立しませんし,有界でも逆正弦法則の様に正規分布と逆な分布では効果は薄くなります。
この辺は数学では解決済みの問題で,大偏差原理(LDT)と呼ばれる方法論があります。
CLTは2次までのモーメントしか扱いませんので,任意の分布で成立するには原則無限のサンプルサイズが必要になります。
有限のサンプルサイズで有意水準・検出力の裾確率の漸近挙動を求めるのが大偏差原理で,こちらは無限次のモーメントまで考慮します。ただし,これは統計の教科書には載っていないと思います(確率論の分野です)。
LDTで漸近挙動を求めるには,ラプラス変換or確率母関数のいずれかが必要で,その対数が1回微分可能であれば大偏差原理が成立します。
どんな物かは
http://coe.math.keio.ac.jp/member/tamuraJpn5J.htm
簡単な原理と計算方法論(ラフな要約ですが)
http://amech.amp.i.kyoto-u.ac.jp/~munakata/regime/F.pdf
ある程度詳しく書いたもの(確率論にある程度詳しい場合)
http://stokhos.shinshu-u.ac.jp/PSS2007/pdf/PSS2007_LDP.pdf
簡単に言うと,LDTはラプラス変換や母関数から逆変換を経由しないで近似的な分布関数を求めます。
その形がeの速度関数乗になりますよと言う理論です(そうする事で分布の裾の正規分布と比較できる減衰速度がわかります)。
No.12272 Re: 中心極限定理の意義 【大森】 2010/03/14(Sun) 18:40
青木先生
ありがとうございます。何となく分かってきました。結局,このあたりのことをきちんと説明している本がなくって,いつも,中心極限定理って重要だと言われる割には,同役にたっているのか,役に立っていないのか分からなかったのでした。
シーゲルのノンパラメトリック検定の本というのは,
ノンパラメトリック統計学―行動科学のために (1983年)
S.ジーゲル 藤本 煕
マグロウヒルブック
でしょうか?
bireiさん
丁寧に説明してくださってありがとうございます。
>「母分布がどのような分布に従っていようが,そこから取り出される標本の平均値は正規分布に従う(これが中心極限定理)。
>これは間違いです。
実は,これが「間違い」だっていうことは知っていました。数学的な説明は,もちろん理解できないんですが。
私が聞きたかったことは,
現 実問題として,初学者から中級者向けの実際にデータを解析する人のための統計学の教科書には「母分布がどのような分布に従っていようが,そこから取り出さ れる標本の平均値は正規分布に従う(これが中心極限定理)」としばしば書いてある。しかし,その意義についての説明はほとんどないし,母分布が正規分布に 従わない場合もパラメトリック検定中心極限定理が使えると初学者は誤解してしまうが,そのことについての説明はどう考えればいいかということなのです。
ですから,bireiさんの説明は,数学的には正しいのだと思いますが,初学者レベルの,今回の質問に対する答えとしては高級すぎて,合格点あげられないな〜。
もちろん,私の質問に興味を持っていただいて,投稿していただいたことにはとっても感謝しています。pdfも読んでみます(きっと,初学者レベルには理解できないんだと思いますが。今,ダウンロードしてみた。案の定,分からなかった!!)。
No.12295 Re: 中心極限定理の意義 【取りすがり】 2010/03/20(Sat) 22:33
> ですから,bireiさんの説明は,数学的には正しいのだと思いますが,初学者レベルの,今回の質問に対する答えとしては高級すぎて,合格点あげられないな〜。
なんだか信じられないコメントですね。合格点云々ではないでしょう。bireiさんの投稿は,少しでも役に立てばとの思いだったはず。別にあなたから試問されているわけでもないのでは?
No.12297 Re: 中心極限定理の意義 【大森】 2010/03/21(Sun) 00:36
申し訳ありません。
筆が滑りました。
bireiさん,気を悪くされていたら謝ります。取りすがりさんに指摘されるまできづきませんでした。
birei さんの解答は,今回の私の疑問そのものについて,私のような初学者レベルの人間が理解するためには,直接は関連のないものでした。おそらく,bireiさ んは,私がもう少し統計学に詳しいのではないかとお考えになって,投稿していただいたのだと思います。残念ながら,私は,bireiさんの10分の1も分 かっていないのだと思います。ですので,冗談めかして,「合格点あげられない」と書いてしまいました(合格点あげられないのは,わたしのほうですね。ニュ アンスが伝わらない掲示板で書くべきことではありませんでした)。
もちろん,少しでも役に立てば,と思って投稿していただいたのだということは分かっていますし,わたしにとって高級すぎても,この掲示板を見ている人にはちょうどいいレベルなのかもしれませんし。
bireiさん,もうしわけありませんでした。
取りすがりさん,ご指摘ありがとうございました。
● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る