No.05998 ノンパラの多重比較  【ポッター】 2008/03/02(Sun) 17:17

パラメトリックな検定が正規分布を仮定する理由について,以下の検定を例にお伺いします。

A,B,C,D,E,F,G群の7群の間で多重比較を行おうと思ったのですが,データは平均値と標準偏差,標本数のみの2次データしかありません。
青木先生のソースを用いて,これだけで検定可能なものは「シェッフェの方法による線形比較」だと判断し,この検定方法を使用しようとしましたが,データが正規分布に従っているのかの判断ができません。

そのため正規分布を仮定した,シェッフェの方法による線形比較もおそらく使用するのはマズイことだとは何となくわかるのですが,なぜシェッフェの方法は正規分布が仮定できていないと使用できないのでしょうか?

過去のスレッドを見てF統計量の使用をにおわす記事も有りましたが,正規分布とF分布がどう関係するのかが以下のURLをみても理解できません。
http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/normal.html
http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/f.html

多重比較についても,もちろんですが正規分布とF分布の関係について教えて頂ければ幸いです。

No.05999 Re: ノンパラの多重比較  【青木繁伸】 2008/03/02(Sun) 22:32

> なぜシェッフェの方法は正規分布が仮定できていないと使用できないのでしょうか?

使用できる・できないは価値観を伴うものなのでちょっとおいておいて,

シェッフェの方法は,平均値と分散(標準偏差)を使って推論します。
正規分布以外での平均値と分散は,正規分布におけるものとはことなります。
よって,正規分布が仮定できないデータに対して,正規分布を明示的に限らず暗黙に仮定するものであっても,正規分布するデータに対して適用されたのと同じように機能する保証はないわけです。

正規分布を仮定したときに比べてどの程度「同じように解釈できる」とするかは,それこそ程度問題です。また,統計処理によっては正規分布からのずれに対して許容度が高いものもあるでしょうし。

ということで,最初に戻って,制約条件を満たさないのがどの程度であっても正規分布を満たすとする手法が適用可能と見なすかはある意味,価値観を伴うのかも。 まあ,そういうことで。

No.06000 Re: ノンパラの多重比較  【ポッター】 2008/03/03(Mon) 00:48

青木さま

早速のご回答ありがとうございます。

申し訳ありませんが,お時間が許すようであればもう少し詳しく教えて頂けないでしょうか?

そもそも,なぜシェッフェの方法は正規分布を仮定しなければならないのでしょうか?
付け焼き刃ですが,正規分布の性質について少し勉強してみました。

しかし,シェッフェの方法の解説のぺージを読ませていただきましたが,正規分布とどうリンクしているのかわかりません。
なぜ突然F統計量が出てくるのでしょうか?

No.06001 Re: ノンパラの多重比較  【青木繁伸】 2008/03/03(Mon) 10:29

> そもそも,なぜシェッフェの方法は正規分布を仮定しなければならないのでしょうか?

繰り返します

>> シェッフェの方法は,平均値と分散(標準偏差)を使って推論します。
>> 正規分布以外での平均値と分散は,正規分布におけるものとはことなります。
>> よって,正規分布が仮定できないデータに対して,正規分布を明示的に限らず暗黙に仮定するものであっても,正規分布するデータに対して適用されたのと同じように機能する保証はないわけです。

> 正規分布とどうリンクしているのかわかりません。

平均値と分散から導かれる様々な統計量は,データが正規分布していなければ意味のないものになります。たとえば,平均値±1標準偏差に約68パーセントのデータが含まれるなどということも,正規分布だからこそ言えることです。

> なぜ突然F統計量が出てくるのでしょうか?

計算される統計量がF分布に従うということです。

No.06009 Re: ノンパラの多重比較  【kai】 2008/03/03(Mon) 17:13

> なぜシェッフェの方法は正規分布が仮定できていないと使用できないのでしょうか?

この問題をもっと簡単な例で言えば”なぜt検定は正規分布が仮定できていないと使用できないのでしょうか?”
になると思います.

そもそも正規分布している事を前提としている方法なので,考え方が逆で,正規分しているならシェッフェの方法が使えるなのではないでしょうか?

>A,B,C,D,E,F,G群の7群の間で多重比較を行おうと思ったのですが,データは平均値と標準偏差,標本数のみの2次データしかありません。

ということなのですが,正規分布していると仮定してシェッフェを”あえて”使用するのも”その分野の知識で考えてそれらのデータが大きく正規分布から外れるはずがない”と考えられるのであれば有りだと思います.

No.06010 Re: ノンパラの多重比較  【青木繁伸】 2008/03/03(Mon) 17:40

> 多重比較を行おうと思ったのですが,データは平均値と標準偏差,標本数のみの2次データしかありません。
> 青木先生のソースを用いて,これだけで検定可能なものは「シェッフェの方法による線形比較」だと判断し

こ の部分を読み飛ばしていましたけど,「サンプルサイズ,平均値,標準偏差」がわかっている場合に可能なのは,平均値の差の多重比較(ライアンの方法, テューキーの方法),テューキーの線形比較などもあります。また,生データが必要なように書かれているものであっても,たとえば「ウィリアムズの方法によ る多重比較」も,生データは個々の群のサンプルサイズ,平均値,標準偏差を計算し,全体のサンプルサイズ,平均値,標準偏差を計算するために使われている わけです。各群のサンプルサイズ,平均値,標準偏差はわかっているわけですから,後は,それらを元にして全体のサンプルサイズ,平均値,標準偏差を計算す ればよいだけです。http://aoki2.si.gunma-u.ac.jp/R/Williams.html に示している関数を手直ししてもよいけど,もっと簡単には,各群のサンプルサイズ,平均値,標準偏差という情報だけから,生データを生成してやればよいで すね。本当の生データは生成できませんが,サンプルサイズと平均値と標準偏差が与えられた数値と全く同じデータを作るのは簡単です(Excel ででも簡単にできます)。ヒントは,適当な正規乱数を作って,それを正規化して,標準偏差を掛けて,平均値を足すだけです。たとえば,平均値が5.7,標 準偏差が2.5となる5つの正規乱数(別に正規乱数でなくてもよいけど。。。)を作るにはRだと次のようになります。
> x <- scale(rnorm(5))*2.5+5.7
> mean(x)
[1] 5.7 # 平均値が5.7になっている
> sd(x)
[1] 2.5 # 標準偏差は2.5になっている
このテクニックを使えば,サンプルサイズ,平均値,標準偏差しかわかっていない場合でも,生データしか受け付けない検定関数を使うことができます。ペリの方法だって,使えることになりますよ。

しかし,これらの検定関数が使える(検定できる)というのと,その結果が妥当であるというのは別です。その結果が妥当であるためには,母分布が正規分布であることが必須なのです。

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る