★ bootstrap法によって生成されたデータの取り扱いについて ★

3813. bootstrap法によって生成されたデータの取り扱いについて かず 2004/07/23 (金) 22:38
├3822. Re:bootstrap法によって生成されたデータの取り扱いについて ひの 2004/07/24 (土) 00:47
└3816. Re: bootstrap法によって生成されたデータの取り扱いについて 青木繁伸 2004/07/23 (金) 23:20
 └3818. Re^2: bootstrap法によって生成されたデータの取り扱いについて かず 2004/07/24 (土) 00:20
  └3824. Re^3: bootstrap法によって生成されたデータの取り扱いについて 青木繁伸 2004/07/24 (土) 07:53


3813. bootstrap法によって生成されたデータの取り扱いについて かず  2004/07/23 (金) 22:38
bootstrap法によって生成されたデータの取り扱いについて

先日教えていただいた通り,パラメトリックブートストラップを行って生成された
対照,処理の測定値より,群ごとに1000個ずつの指数を計算できました。
ここで,群間の平均値に違いがあるかどうかを調べる方法として,

1. 95%信頼区間がお互いの平均値にかかっているかを調べる
2. それぞれ1000個のデータを用いてanovaを行う

の二つを思いつくのですが,後者は可能なのでしょうか?色々とシミュレーションしてみたところ,ブートストラップの反復回数を増やせば増やすほど有意な差が出やすくなる傾向があるようです。差の有意性が恣意的に操作できてしまうようで,イマイチすっきりとしません。

また,データの構造的に,Factorialなanovaを行えるのであれば,行いたい状況でもあります。1.の方法の場合,Factorialなデザインのものをどう扱えばいいのか,よく分かりません。

教えていただけると大変助かります。よろしくお願いします。

     [このページのトップへ]


3822. Re:bootstrap法によって生成されたデータの取り扱いについて ひの  2004/07/24 (土) 00:47
> 1. 95%信頼区間がお互いの平均値にかかっているかを調べる

 この方法だと,一方はかかるが他方はかからないという場合がありえます。
 対照群 ー 実験群
の値を1000個調べて,0をまたぐケースが50(片側検定)または25(両側検定)あるかどうかで有意差があるかどうか推定できます。

> 2. それぞれ1000個のデータを用いてanovaを行う
>
> の二つを思いつくのですが,後者は可能なのでしょうか?

 不可です。ブートストラップサンプルをオリジナルの標本データと同列に扱うことはできません。ブートストラップ法は信頼区間などを推定するテクニックなので,検定とは親和性が低いのです。

     [このページのトップへ]


3816. Re: bootstrap法によって生成されたデータの取り扱いについて 青木繁伸  2004/07/23 (金) 23:20
> 2. それぞれ1000個のデータを用いてanovaを行う

1回の anova を 1000個のデータを使って行うということですか。
検定は,たとえば二群の平均値の差の検定を行うときに,平均値の差が全く同じでもデータの個数が多くなると,有意になりますね。検定とはそう言うものです。

有意にならなかったら,どんどんデータを増やしていけば,どんなわずかな差でも有意にすることができますよ。

bootstrap 法のポリシーというか方針というかを間違えているのではないですか。

     [このページのトップへ]


3818. Re^2: bootstrap法によって生成されたデータの取り扱いについて かず  2004/07/24 (土) 00:20
青木様

お返事ありがとうございます。

> 有意にならなかったら,どんどんデータを増やしていけば,どん>んなわずかな差でも有意にすることができますよ。

それは当たり前ですよね,やはり。

> bootstrap 法のポリシーというか方針というかを間違えているのではないですか。

参考にしている論文が,
Paine 1992 Nature vol.355(2):73-75
なのですが,この中では,ブートストラップによって各種(群)につき100個のデータを生成し,Indexを計算しています。
ここでは,種間に差がないことに関して,Anovaを用いて言及しており,このような使い方をしてもいいものなのだろうかと疑問に思いました。

bootstrap法が自体が,あくまで信頼区間の推定のために行うものである以上,信頼区間を用いて平均値の差について言及すべきと考えてよいのでしょうか。

     [このページのトップへ]


3824. Re^3: bootstrap法によって生成されたデータの取り扱いについて 青木繁伸  2004/07/24 (土) 07:53
> bootstrap法が自体が,あくまで信頼区間の推定のために行うものである以上,信頼区間を用いて平均値の差について言及すべきと考えてよいのでしょうか。

私の理解しているところでは,

ブートストラップは,「標本から繰り返し抽出してある統計量を計算し,その統計量の分布を調べる」ということではないでしょうか。
具 体的に言うとたとえば,サンプルサイズが50の,A,B 二群の標本があるとします。A,Bからブートストラップ標本を50ずつ取り出したとえば中央値の差を計算します。この操作をたとえば10000回行い,中 央値の分布を調べ両端の2.5%点を求めますこれをそれぞれ x, y とすると,区間[x,y]がA,B の中央値の差の95%信頼区間これに0が含まれていると5%の有意水準のもとで中央値の差に有意な差があったと結論する。

以上のようなこ とですから,ブートストラップ法は区間推定にも検定にも全く同じに適用できる。さらにブートストラップ法の優れているところは「二群の中央値の差」のよう にあまりその分布についてよく知られていないような場合(知られていてもいろいろな条件を完全に満たせないような場合)にも検定・推定が行えるということ でしょう。

要するに,検定統計量(既存のものでなくて良い)を決め,その分布をブートストラップにより決定するということですから,かずさんの場合はブートストラップ標本により anova を行ってその統計量(index ですか)の分布をみるのでは?

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 029 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る