No.13352 1以下の数の期待値に対する検定方法  【藤田】 2010/09/02(Thu) 17:48

0から1の間の値(X軸)をとるべき分布形状(最大値があるのでべき分布といえるか不明のため)の確率分布A(分布自体は不明)があり。
この期待値μ1が分っているとします。
ここでサンプル値が100個(x1〜x100)得られたとき,これらがAから得られたことを帰無仮説とする検定をしたいです。
期待値があるのでカイ2乗検定を考えましたが,小数となるためうまく使えそうにありません。

恐れ入りますが,お知恵をいただけると幸いです

No.13353 Re: 1以下の数の期待値に対する検定方法  【ひの】 2010/09/02(Thu) 18:45

母平均の検定(母分散未知の場合)ですね。

http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html

No.13354 Re: 1以下の数の期待値に対する検定方法  【藤田】 2010/09/02(Thu) 21:33

さっそくの回答ありがとうございます。

恐れ入りますが,さらに質問させていただきたく。
分 布Aが100個あり(A1〜A100),それぞれの分布からサンプル値が100個(A1X1〜A100X100で計10000個)とれたとします。このと き,各サンプル値が対応する分布A1〜A100から得られたことを帰無仮説とした検定をしたいとします。各分布AからサンプルXの検定はt分布となると すると,この各t分布の合成した分布に対する上辺確率を求めるという考え方で正しいでしょうか。

また,分布を合成する場合は,正規分布に近づくように認識していますが,分布の合成方法について参考になるURL等あれば教えていただけ得ると幸いです。

重ねて質問恐縮ですがよろしくお願いします。

No.13355 Re: 1以下の数の期待値に対する検定方法  【青木繁伸】 2010/09/02(Thu) 21:40

「分布自体は不明」とはいっても,経験分布はあるでしょう?
(経験分布というのは,例えば,過去の数百, 数千個の測定値があれば,その測定値を例えば0.1刻みで度数分布表を作ることができますよね。そうして,それぞれの測定値区間に入る測定値の確率が求ま りますから,それが理論分布ですよ。標本が100個得られたら,それを先ほどの測定値区間に分けて度数分布を集計したら,後は,適合度の検定でしょう?

シミュレーション例を挙げてみましょうか?母分布は一様分布を考えますが,母分布が一様分布であるというのは,経験分布を求めるテストデータを作成するときに使うだけで,本筋とは全く関係ありません。

区間は 0〜1 を 0.1 に等間隔に区分したもの
f(i) は,過去 10000 個のデータの度数
p(i) は,それぞれの区間の確率です
o は,今回検定の対象とする 415 個のデータを区間に分けて集計したもの
e は,415*p(i) で計算される期待値
(o-e)^2/e は,適合度の検定でカイ二乗統計量を計算するためのもの。これを合計したらχ二乗統計量
区間      f(i)   p(i)  o       e  (o-e)^2/e
(0,0.1] 988 0.0988 35 41.0020 0.87859139
(0.1,0.2] 999 0.0999 43 41.4585 0.05731568
(0.2,0.3] 988 0.0988 46 41.0020 0.60923867
(0.3,0.4] 985 0.0985 47 40.8775 0.91700829
(0.4,0.5] 999 0.0999 39 41.4585 0.14578970
(0.5,0.6] 1056 0.1056 32 43.8240 3.19019204
(0.6,0.7] 993 0.0993 30 41.2095 3.04912436
(0.7,0.8] 1007 0.1007 44 41.7905 0.11681818
(0.8,0.9] 1026 0.1026 49 42.5790 0.96829989
(0.9,1] 959 0.0959 50 39.7985 2.61493781
(o-e)^2/e を合計すると,12.54732
になる,これは,自由度 1 のカイ二乗分布に従う。
R で検定すると,
> chisq.test(c(35, 43, 46, 47, 39, 32, 30, 44, 49, 50), p=c(988, 999, 988, 985, 999, 1056, 993, 1007, 1026, 959)/10000)

Chi-squared test for given probabilities

data: c(35, 43, 46, 47, 39, 32, 30, 44, 49, 50)
X-squared = 12.5473, df = 9, p-value = 0.1842
となり,カイ二乗値が一致する(従って,p値も一致する)ということがわかる。

No.13356 Re: 1以下の数の期待値に対する検定方法  【青木繁伸】 2010/09/02(Thu) 21:45

> 分布Aが100個あり(A1〜A100),それぞれの分布からサンプル値が100個(A1X1〜A100X100で計10000個)とれたとします。この とき,各サンプル値が対応する分布A1〜A100から得られたことを帰無仮説とした検定をしたいとします。各分布AからサンプルXの検定はt分布となる とすると,この各t分布の合成した分布に対する上辺確率を求めるという考え方で正しいでしょうか。

普通,そういう状況で「分布Aが100個あり」などという仮定はしないのでは?
それとも,本当にそういう状況で検定したいのですか?
「各t分布の合成した分布」というのは??
t分布って再生性があるんだっけ?(正規分布との連想から言えば,ありそうには思うけど,ほんとうにそういうことが必要なんだろうか?)

No.13358 Re: 1以下の数の期待値に対する検定方法  【ひの】 2010/09/03(Fri) 00:40

個々のP値を元に確率結合をすればよいのでは?

No.13360 Re: 1以下の数の期待値に対する検定方法  【藤田】 2010/09/04(Sat) 08:02

ご回答ありがとうございます。

>青木様
具体例まで示していただき,わかりやすい回答ありございました。
100個程度のサンプルが取れるケースでは,このような方法が取れるのですね

また,多数分布と対応するサンプルのセットをまとめて検定する件については,
母分布が変化していく状況を想定しています。(変化を反映して検定したい)
分布の合成は,少なくとも一筋縄ではいかないということがわかりました。ありがとうございました。

>ひのさま
改めて回答ありがとうございました。
確率結合にするとは,単純にp値を掛け合わせることと理解しました。(独立性の仮定をおいたため)
し かし,p値は,その事象以上に偏ったことが起こる確率であり,その事象が起こる確率ではないので,単純に結合できないのではと考えました。具体的には,p 値が0.8(普通に起こる事象)とp値0.01(めったに起こらない事象)を単純にかけていくことの意味に違和感を感じています。また,この場合,多数の 試行を繰り返して結合していくと必ず結合確率が0に収束することになります。

このため,以下の方針を考えたのですが,正しいか自信がありません。アドバイスいただけると幸いです。

?100個のp値を平均する
各t分布は別だが,事象自体がランダムであれば
p値の平均は理想的には0.5に収束する(はずなので),0.5からの差異を確認する。検定とはいえませんが,指標化として。

?100個のp値に対して,0.5を期待値としてカイ二乗検定をする。
各t分布が別なので,差の2乗をとる正当性に自信がありません。却下かと想定しています。?がよくて?がだめなのも,われながら自信がありませんが

?100個のp値について,t分布の各t値(X軸)での確率(Y軸の値,非上辺確率)を計算して確率結合する。
このような使い方が,正当なのか自信がありませんが

?100個のp値について,p値が0.10以下(独自に決める閾値)のものだけ抽出して,p値の数が全体の10%(10個)であるかを確認する
極端な事象が起こっている率を確認し。それが,頻発しているか確認。検定とはいえませんが,指標化として。

No.13361 Re: 1以下の数の期待値に対する検定方法  【ひの】 2010/09/04(Sat) 09:14

確率結合の方法については過去ログをご参照下さい。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc025/627.html

No.13362 Re: 1以下の数の期待値に対する検定方法  【のね】 2010/09/04(Sat) 09:34

横から失礼します。

> 0から1の間の値(X軸)をとるべき分布形状(最大値があるのでべき分布といえるか不明のため)の確率分布A(分布自体は不明)があり。
> この期待値μ1が分っているとします。
> ここでサンプル値が100個(x1〜x100)得られたとき,これらがAから得られたことを帰無仮説とする検定をしたいです。

期待値はさておき,サンプル X が,分布 A から得られたものかどうか,または,サンプル X と サンプル Y が同じ分布から得られたものかどうかを検定する方法として,Kolmogorov-Smirnov test があります。
R にも ks.test という関数があるはずです。

当初の目的には,この方法が使えるのではないでしょうか。

No.13363 Re: 1以下の数の期待値に対する検定方法  【ひの】 2010/09/04(Sat) 11:41


>期待値はさておき,サンプル X が,分布 A から得られたものかどうか,または,サンプル X と サンプル Y が同じ分布から得られたものかどうかを検定する方法として,Kolmogorov-Smirnov test があります。

 サンプル X と サンプル Y については2標本のKS-testが適用できますが,「確率分布A(分布自体は不明)」ということなのでこちらはKS-testは無理。代表値(期待値)しか分かっていないならそれを検定することしかできません。

 ただ,すでに青木さんも指摘なさっていますが,分布の形状が全く分かっていないわけではなくて「べき分布形状」とうことは分かっているわけだからこの形についてもう少し情報があればKS-testが適用できるかも知れません。

No.13366 Re: 1以下の数の期待値に対する検定方法  【のね】 2010/09/04(Sat) 22:42

> サンプル X と サンプル Y については2標本のKS-testが適用できますが,「確率分布A(分布自体は不明)」ということなのでこちらはKS-testは無理。代表値(期待値)しか分かっていないならそれを検定することしかできません。

 おっしゃるとおりです。

 ただ 13354 の質問をみると,期待値の検定と言うよりはこちらに近いのかなと思ったので投稿してみました。
 ご存じの通り,期待値だけについてどのように検定しようと,サンプル X が分布 A から得られたという仮説を検定することはできないのでは。

No.13368 Re: 1以下の数の期待値に対する検定方法  【ひの】 2010/09/05(Sun) 08:17

>期待値だけについてどのように検定しようと,サンプル X が分布 A から得られたという仮説を検定することはできないのでは。

  母平均の検定で,平均値が等しいという帰無仮説が棄却されれば,その母分布からのサンプルではないと結論できます。しかし棄却されなかった場合は「平均値 が異なってはいない」という結論になるだけで,分布の形やその他の特性についてはもちろん何も分からないということになります。
 たとえ話をすれば,「犯人の身長だけが分かっている」という状況で「容疑者が犯人かどうか判定せよ」というような問題と同じです。身長が違っていれば「容疑者は犯人ではない」といえるが,身長が同じだからといって「容疑者は犯人である」と結論するのは無理。

  だた,データの発生機序からどういう種類の分布関数に従うかが明確な場合もあるかと思います。その場合は,その分布の形を決定するパラメータ(正規分布な ら平均値と分散)が等しければ同じ分布と結論できますから,そのパラメータ(代表値)の検定をするだけで足りることになります。今回のケースがこれに該当 するのかどうかは分かりません。該当するとしても,分かっているパラメータが期待値(平均値)だけというのはおそらく情報不足でしょう。

No.13371 Re: 1以下の数の期待値に対する検定方法  【藤田】 2010/09/06(Mon) 18:06

ひのさま,のねさま

回答ありがとうございます
あらためて自分の不勉強が自覚され,恐縮いたします。
いただきました回答を元に,周辺調査し,あらためて検討させていただきます。
ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る