No.12857 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/17(Thu) 22:58

2群の平均の差を検定する場合,

1.「welchの方法によるt検定」と「welchの分散分析」は,同じものでしょうか?

2.検定の多重性を避けるという意味から,「welchの方法によるt検定」あるいは「welchの分散分析」をいきなり行うのがよいのでしょうか?(等分散の検定→studentのt検定あるいは一元配置分散分析を行わない)

3.「welchの方法によるt検定」あるいは「welchの分散分析」を行う場合,正規性の確認はしておくべきでしょうか?(分散分析は頑強性があると読んだ気がします)

お手数おかけいたしますが,ご指導いただけましたら幸いです。
よろしくお願いいたします。

No.12858 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/17(Thu) 23:44

> 1.「welchの方法によるt検定」と「welchの分散分析」は,同じものでしょうか?

「Welch の分散分析」というのは,R の oneway.test のデフォルト(var.equal=FALSE)で使われる,「等分散性を仮定しない一元配置分散分析」のことでしょうか?
2 群の比較は「t 検定」,3 群以上の場合には「一元配置分散分析」が使われるのが普通ですが,2 群の場合に一元配置分散分析を使っても同じ結果(P 値)が得られます。間違いではありません。普通の統計解析プログラムでは一元配置分散分析は等分散を仮定しているものですが,R ではデフォルトで Welch の方法による一元配置分散分析を行いますので,var.equal=FALSE を指定した t.test と oneway.test の結果も一致します(var.equal=TRUE を指定した場合も両者の結果は一致します)。(2 群の場合と 3 群以上の場合の関係は,マン・ホイットニーの検定とクラスカル・ウォリス検定との関係でも同じ,つまり,2 群の場合でも,クラスカル・ウォリス検定を行って間違いではないし,近似計算でなく,正確な P 値が求められれば,マン・ホイットニーの U 検定と同じ P 値になります)
> x <- c(3,2,5,7,10) # 第1群のデータ(5個)
> y <- c(4,2,1,5,7,2,6) # 第2群のデータ(7個)
> z <- c(x, y) # 両方をつなげる
> g <- rep(0:1, c(5, 7)) # 群を表すベクトル(最初の5要素が0,後の7要素が1)
> t.test(z ~ g) # Welch の方法による t 検定

Welch Two Sample t-test

data: z by g
t = 0.9229, df = 6.786, p-value = 0.3877 # ★
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.435517 5.521231
sample estimates:
mean in group 0 mean in group 1
5.400000 3.857143

> oneway.test(z ~ g) # Welch の方法による一元配置分散分析

One-way analysis of means (not assuming equal variances)

data: z and g
F = 0.8518, num df = 1.000, denom df = 6.786, p-value = 0.3877 # ★

> t.test(z ~ g, var.equal=TRUE) # 等分散を仮定した t 検定

Two Sample t-test

data: z by g
t = 0.9816, df = 10, p-value = 0.3495 # ★★
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.959314 5.045028
sample estimates:
mean in group 0 mean in group 1
5.400000 3.857143

> oneway.test(z ~ g, var.equal=TRUE) # 等分散を仮定した一元配置分散分析

One-way analysis of means

data: z and g
F = 0.9635, num df = 1, denom df = 10, p-value = 0.3495 # ★★
★を付けた 2 つの P 値と,★★を付けた 2 つの P 値が同じことを確認。蛇足ですが t^2 = F という関係式があります。t の自由度は,F の第 2 自由度と同じで,F の第 1 自由度は 1 です。
-------
> 2. 「welchの方法によるt検定」あるいは「welchの分散分析」をいきなり行うのがよいのでしょうか?

そのような立場と従来の立場両方ともあります。学会誌によりいずれかが優勢でしょう。
長いものに巻かれましょう。
-------
3. 正規性の確認はしておくべきでしょうか

2 群の場合,分散の比が 1/5 〜 5 の範囲内にあれば頑健だと言われているようです。3 群以上の場合もそれに準じればよいと思います。

No.12859 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 06:35

青木先生

早速のご回答ありがとうございます。

>「Welch の分散分析」というのは,「等分散性を仮定しない一元配置分散分析」のことでしょうか?

おそらくそうだと思います。
RではなくJMPを使っていますが,2群に対しても「Welch の分散分析」としてp値等表示されます。

> そのような立場と従来の立場両方ともあります。

ありがとうございます。

> 2 群の場合,分散の比が 1/5 〜 5 の範囲内にあれば頑健だと言われているようです。

ありがとうございます。
論文等に記述する場合,正規性を確認した旨,あるいは分散の比を確認した旨記述して,「welchの方法によるt検定」あるいは「welchの分散分析」の結果を記述するのがよいのでしょうか?

お手数おかけいたしますが,よろしくお願いいたします。

No.12860 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/18(Fri) 08:56

等分散を仮定しない(Welchの方法による)t検定や一元配置分散分析は,等分散を仮定するものと相反するもの ではないので,いつも等分散を仮定しない方法を採用すればよいでしょう。数個〜数十個のデータで,正規性仮説が棄却されなかったと記述しても説得力はあま りないでしょう。棄却されたとしたらこれまた困るし。

>>「Welch の分散分析」というのは,「等分散性を仮定しない一元配置分散分析」のことでしょうか?
> おそらくそうだと思います。
> R ではなくJMPを使っていますが,2群に対しても「Welch の分散分析」としてp値等表示されます。

JMP なら,R と同じく,等分散を仮定しない一元配置分散分析ですね。R も JMP も同じ結果になります。

No.12861 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 09:29

青木先生

ありがとうございます。

追加で質問なのですが,『Excelベース基本統計解析』の5.3に母平均の差の検定手順というフローチャートがあります。これによると,
2群がペア関係にある場合は,studentのt検定
2群がペア関係になく,等分散でない場合は,Welchのt検定
となっています。

いつも等分散を仮定しない方法を採用する立場では,2群がペア関係にある場合でも,Welchのt検定を行うということでよいのでしょうか?

何度もすみませんが,ご教授いただけましたら幸いです。
よろしくお願いいたします。

No.12862 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/18(Fri) 09:56

『Excelベース基本統計解析』って,本ですか。。。持ってないなあ。

「二群がペア関係」って,なんだろう。対応のあるデータということかな?
普通それは,Studentのt検定とは呼ばないでしょう。

誰が書いた本だろう。そんな題名の本は,ないなあ。

> いつも等分散を仮定しない方法を採用する立場では,2群がペア関係にある場合でも,Welchのt検定を行うということでよいのでしょうか?

対応のあるデータの平均値の差の検定は,等分散かどうかは無関係だし,そもそも Welch の方法による検定方法などないでしょう。

No.12863 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 10:56

青木先生

早速のご回答ありがとうございます。

『Excelベース基本統計解析』ですが,コピーを渡してくれた同僚が本日休暇でして,詳細は月曜日にご報告いたします。

>「二群がペア関係」って,なんだろう。対応のあるデータということかな?

はい。謎です。

フローチャートには,
正規分布に従わない→2群は対応がある→符号付順位和検定
正規分布に従わない→2群は対応がない→順位和検定
というのがあり,

正規分布に従う→標本数が30以下→2群がペア関係にある→t検定
正規分布に従う→標本数が30以下→2群がペア関係にない→母分散は既知でない→F検定→等分散→t検定
正規分布に従う→標本数が30以下→2群がペア関係にない→母分散は既知でない→F検定→等分散でない→Welchの検定
となっています。
やはり,対応のあるデータということなのでしょうか?

> 普通それは,Studentのt検定とは呼ばないでしょう。

ここにあるt検定とはstudentのt検定のことかと思い,先の書き込みでそう書きました。

> 対応のあるデータの平均値の差の検定は,等分散かどうかは無関係だし,そもそも Welch の方法による検定方法などないでしょう。

ということは,対応のあるデータの平均値の差の検定には,t検定を行うということでしょうか?それは,studentのt検定とは呼ばないのでしょうか?

お手数おかけいたしまして,すみません。
よろしくお願い申し上げます。

No.12864 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/18(Fri) 13:04

> 正規分布に従う→標本数が30以下→2群がペア関係にある→t検定
> ここにあるt検定とはstudentのt検定のことかと思い,先の書き込みでそう書きました。

いろんな検定を t 検定だとか F 検定だとかの名前で呼ぶから,こういう不都合が起きる。
現に上の「F検定→等分散でない」は「等分散性の検定」というべきで,普通「F 検定」というと「一元配置分散分析」を指すことが多いであろう。

「Student の t 検定」は,「独立二標本の平均値の差の検定」のこと。

流れ図全体から見れば,上の方のノンパラメトリック検定の流れの中に「2群は対応がある」というのがあり,これも用語が悪いが,「関連二標本」つまり「対応のある二標本」のこと。

これと同じことを,下のパラメトリック検定の中で「2群がペア関係にある」なんて,もっと不適切な記述をしているのだろう。

ところで,「正規分布に従って,標本数が30以下」という流はあるが,
ちょっと,脇道,ここで「標本数」などという用語を使うとは,その本の著者のいうことは眉によく唾をつけて読む方がよいかも...
閑話休題。正規分布に従って,標本の大きさ(サンプルサイズ)が31以上」のときの流は書いてあるんだろうか???

なお,「30以下」等という基準はいい加減なものなので,真に受けない方がよいと思います(このフローチャートに従って検定法を選択するのも,ちょっと考え物)。

> 対応のあるデータの平均値の差の検定には,t検定を行うということでしょうか?それは,studentのt検定とは呼ばないのでしょうか?

対 応のあるデータの平均値の差の検定には,t 分布を使う検定方式があります。それは,あえて英語で呼ぶと "paired t test" と呼ばれることもあります(「対応のある場合の t 検定」ということですね。この名前が好ましくないのは前にも言った。対応のある場合の平均値の差の検定というのは,何種類もない(実際は1つ)なので,そ の検定を表す短い言葉(t 検定とか)は必要ないのです)。なお,対応のないデータの平均値の差の検定(つまり独立二標本の平均値の差の検定)も,"Student's t test" というように Student の名前を冠して呼ぶ人は少ないと思いますがどうでしょう。

No.12865 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 13:58

青木先生

重ね重ねありがとうございます。

> 「標本数」などという用語を使うとは

教えていただきたいのですが,何が問題でどう書けばよいのでしょうか?
勉強不足で,標本数という言葉の何がいけないのかわかりません。
標本という言葉自体がいけないのでしょうか?

> 正規分布に従って,標本の大きさ(サンプルサイズ)が31以上」のときの流

Z検定
です。

正規分布に従う→標本数が30以下→2群がペア関係にない→母分散は既知→Z検定
というのもあります。

>「対応のある場合の t 検定」ということですね。この名前が好ましくない。
> 対応のある場合の平均値の差の検定というのは,実際は1つなので,その検定を表す短い言葉(t 検定とか)は必要ないのです。

勉強不足で申し訳ございません。
それでは,どう呼べばよいのでしょうか?

恐れ入りますが,ご教授いただけましたら幸いです。
よろしくお願いいたします。

No.12866 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/18(Fri) 14:42

統計学の一番最初の頃に出てくる用語定義(概念)です

データの個数を表すのは,「標本の大きさ」です。英語で言えば sample size で,それをカタカナで書いてサンプルサイズといったり,足して二で割って(中途半端に訳して)標本サイズといったりします。

標本数というのは,「独立二標本」というときのように,「標本が幾つあるか」をさすわけです。独立二標本において,標本数は 2 です。英語だと,それは,independent two samples といいます。

「標本数が5で,それぞれの標本の大きさは 10,38,32,56,71」というような使い分けがあるのです。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc038/00590.html
http://blog.livedoor.jp/yahata127/archives/51615946.html
http://www.jil.go.jp/column/bn/colum005.html
など,google で引けば誤用例が五万とあります。

>> 正規分布に従って,標本の大きさ(サンプルサイズ)が31以上」のときの流

> Z検定です。

い まどき,大標本論を持ち出して,正規分布で(近似)検定するなどという選択肢を採る人はいないでしょう。特に,コンピュータで計算するときに,31以上の ときにわざわざ標準正規分布を使う漸近検定を行うようにスイッチするプログラムがあったら,むしろ非難されるでしょう。

>>「対応のある場合の t 検定」ということですね。この名前が好ましくない。
>> 対応のある場合の平均値の差の検定というのは,実際は1つなので,その検定を表す短い言葉(t 検定とか)は必要ないのです。

> 勉強不足で申し訳ございません。それでは,どう呼べばよいのでしょうか?

「対応のある場合の平均値の差の検定」といえばよいのです。

No.12867 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 15:01

青木先生

重ね重ねありがとうございます。
基礎ができていないことに気付かせていただくだけでなく,
補充・修正していただきました。

> いまどき,大標本論を持ち出して,正規分布で(近似)検定するなどという選択肢を採る人はいないでしょう。

ということは,

いつも等分散を仮定しない方法を採用する立場で,2群の母平均の差を検定する場合,
2群とも正規分布に従うとしたら,
2群がペア関係にある→「対応のある場合の平均値の差の検定」
2群がペア関係にない→「Welchのt検定」
この2つのフローに集約してよい。
と考えてよろしいのでしょうか?

ご教授賜れましたら幸いです。
何卒よろしくお願い申し上げます。

No.12868 Re: 「welchの方法によるt検定」と「welchの分散分析」  【青木繁伸】 2010/06/18(Fri) 15:15

それでよいと思います。

No.12869 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/18(Fri) 15:23

青木先生

ありがとうございます!
感謝です!

No.12878 Re: 「welchの方法によるt検定」と「welchの分散分析」  【ホンダ】 2010/06/21(Mon) 16:48

青木先生

同僚に聞いた結果ですが,
先のフローチャートは,『基本統計解析』?というセミナーでのテキストの一部だそうです。
講師の先生は某大学の教授だったそうです。

ご報告まで。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る