★ F分布を利用した2群の等分散性の検定 ★

5121. F分布を利用した2群の等分散性の検定 たい 2004/12/01 (水) 10:10
└5124. Re: F分布を利用した2群の等分散性の検定 青木繁伸 2004/12/01 (水) 12:52
 └5127. Re^2: F分布を利用した2群の等分散性の検定 たい 2004/12/02 (木) 05:19
  └5128. Re^3: F分布を利用した2群の等分散性の検定 TY 2004/12/02 (木) 10:10


5121. F分布を利用した2群の等分散性の検定 たい  2004/12/01 (水) 10:10
2群の等分散性の検定について質問させてください。
想定しているのは,各群のそれぞれの要素が正規分布に従うこと
を仮定して,不偏サンプル分散 (: S_i^2 i=1,2) が,
それぞれχ2乗分布に従うことから,その不偏サンプル分散の比が
F-分布に従うこと,を利用する検定です。

この検定では,検定統計量Fを

F = 不偏サンプル分散の大きいほう/ 不偏サンプル分散の小さいほう

のように定義すると思います。別な書き方をすると,

(*)  F = max (s_1^2/s_2^2, s_2^2/s_1^2 )

のようになると思います。maxの中身の各要素がF分布に従うのは,
自明ですが,(*)で定義されたFが,F-分布に従うかどうかは,
明らかではないと思います。
一般には,X, Y が同じ分布に従っていても,max(X,Y)は,
全く別の分布に従うと思います。

この等分散性の検定で,なぜF-分布が用いられているのか,
わかりません。わたしは,(*)で定義されたFは,
おそらくF-分布に従わないだろうと思うのですが,
実はそうではなくて,F-分布に従うという結果があるのか,
もしくは,近似的にでも従うということが,知られているのか,
あるいはまた別な理由によって,F分布を用いることが,
正当化されるのでしょうか? 
ご存知の方がいらっしゃれば,御教唆いただければ,さいわいです。

     [このページのトップへ]


5124. Re: F分布を利用した2群の等分散性の検定 青木繁伸  2004/12/01 (水) 12:52
> (*)で定義されたFが,F-分布に従うかどうかは,
> 明らかではないと思います。

同じF分布でも,自由度が違います。
でもそのあたりを考慮した後では,計算される有意確率はどちらも同じになります。

普通の教科書はFが1以上になるように定義するわけですが,それは,検定に使うF分布表がF>1の場合について作られているからに過ぎません。コンピュータを使うなら,そんな制限は無用です。
> F <- 2.4
> pf(F, df1=3, df2=5, lower=FALSE)
[1] 0.1838846
> pf(1/F, df1=5, df2=3, lower=TRUE)
[1] 0.1838846

1/F について P 値を求めるとき,自由度を入れ替え,下側確率をとれば同じなんですね。

Rの等分散性の検定 var.test では,分母より分子が大きい場合も,入れ替えたりせず,F<1 の検定統計量を表示し,P値は当然ながらそのままちゃんと計算します。

> わたしは,(*)で定義されたFは,
> おそらくF-分布に従わないだろうと思うのですが,

ということで,それは間違いです。

     [このページのトップへ]


5127. Re^2: F分布を利用した2群の等分散性の検定 たい  2004/12/02 (木) 05:19
青木先生,ご丁寧な回答をありがとうございます。

御教唆いただいたのは,特にF分布に従う確率変数でなくとも,
任意の,正の値をとる確率変数Xに対して成立する,

 (##)  Pr( X <= a ) = Pr ( 1/X >= 1/a )

という関係ですよね? max(X,Y)が従う分布ではなくて,
Z = max(X, 1/X) という確率変数が従う分布を考えるべき
だったのですが,このZは,常に1以上の値をとるため,
Pr(Z<1) = 0 になるかと思います。

>> わたしは,(*)で定義されたFは,
>> おそらくF-分布に従わないだろうと思うのですが,
>
>ということで,それは間違いです。

ということなのですが,このPr(Z<1) = 0 は,
Zがχ2乗分布に従わないことの証拠になると思いますが,,,

以下のように考えてみたのですが,
これは,正しい考え方でしょうか?

検定統計量Fを
 
 (*)  F = max (s_1^2/s_2^2, s_2^2/s_1^2 )

のように定義していると考えるよりは,以下の2種類の
検定統計量:

  F' = s_1^2/s_2^2
  F'' = s_2^2/s_1^2

を考えているとする。
(1) いま,F'=1/F'' という関係と,(##)という
関係のために,どちらの統計量で考えても,同じである。
(2)また,F'若しくはF''のどちらか一方を検定統計量として,
 用いた場合には,両裾の棄却域のうちどちらか片方は,
常に棄却のために利用されることはない。
(3) F'>=1 もしくは,F''>=1が常に成立するために,
 その場に応じて,1以上になる方を採用しておけば,
いつも上側の確率だけ考えておけばよい。

統計量を
F = 不偏サンプル分散の大きいほう/ 不偏サンプル分散の小さいほう
のように考える理由を,以上(1)-(3)のように
考えてみたのですが,いかがでしょう? 
ちょっと,自分でも混乱してきたのですが,
もう少しご教授いただけると嬉しいです。


     [このページのトップへ]


5128. Re^3: F分布を利用した2群の等分散性の検定 TY  2004/12/02 (木) 10:10
> 検定統計量:
>
>   F' = s_1^2/s_2^2
>   F'' = s_2^2/s_1^2
のどちらか一方のみが検定統計量だが,数表 (本当に数字が並べてある表です。多くの統計の本の巻末につけられています) はF>=1だけ用意されている。昔,星をつけていた頃は,この数表とにらめっこして検定していたらしい。
F<1の数表を作らなかったのは,F(DF1,DF2)の下側棄却域を調べることは,1/F(DF2,DF1)の上側棄却域を調べることと同値だったから (F<1を省略することでページ数を圧縮できる)。

今は,計算機が発達しているので,わざわざF<1の時に逆数を取って計算する必要がなくなっています。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 031 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る