★ Excelの異分散 t 検定の p 値はおかしくありませんか? ★

 207 Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 09:47
  208 Re: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 10:46
   210 Re^2: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 13:11
    211 Re^3: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 17:46
     212 Re^4: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 18:40
      213 Re^5: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 21:31
       214 Re^6: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 21:39
        216 Re^7: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/21 (金) 09:23


207. Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 09:47
連続データの平均の差の検定は,t検定が用いられていますが,前提は等分散です。
分散が異なる場合は,統計の本に依るとウェルチの検定となっています。

比較対象の標本数が等しいので,検定統計量はtとウェルチ同一で,違いは自由度だけです。
具体的には,得られるp値の1-2%とごく僅かではありますが,気になります。
自分の計算ミスかと思い,検算しても間違いはないようです。

Excelもウェルチを使っているようですが,何故合致しないのか判る方がいらしたら,教えて下さい。

     [このページのトップへ]


208. Re: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 10:46
> Excelもウェルチを使っているようですが,何故合致しないのか

何と何が合致しないのかというのが今ひとつ判然としないのですが…

私の推測で回答すると,

Excel の分析ツールでは,Welch の方法におけるP値を計算するときに,本来小数点つきの自由度を四捨五入している。そのため,等分散を仮定したときの自由度と同じになることがある(必ずなるかどうかは確かめていない)。そうすれば,得られるP値が同じになる。しかし,このようなことは妥当な計算方法ではない。

http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/two_sample.html
などで示すように,私は自由度の逆数補間で小数点つきの自由度に対するP値を計算するようにしてあります。

     [このページのトップへ]


210. Re^2: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 13:11
> Excel の分析ツールでは,Welch の方法におけるP値を計算するときに,本来小数点つきの自由度を四捨五入している。そのため,等分散を仮定したときの自由度と同じになることがある(必ずなるかどうかは確かめていない)。そうすれば,得られるP値が同じになる。しかし,このようなことは妥当な計算方法ではない。
> 私は自由度の逆数補間で小数点つきの自由度に対するP値を計算する

ご指摘のように,自由度をどの様に算出しているかがポイントです。
Excelでは少数点以下を単純に四捨五入していないようなので,?となった次第です。

お知らせ頂いたマクロで早々に確認させて頂きました。
手計算,Excelとマクロともほぼ同じp値ですが,僅かに異なります。
手計算>マクロ>Excelとなっています。

統計学的には,逆数補間で小数点つきの自由度?なるものまで,勉強しないといけないようですね。これについて,知識を得られるような情報がありましたら,お知らせ頂ければ幸いです。

但し,私の場合統計は業務でToolとして使っている関係上,αリスクに対して判断を誤るような違いでは有りませんので,実用上はどれを用いても支障は無さそうです。

     [このページのトップへ]


211. Re^3: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 17:46
> Excelでは少数点以下を単純に四捨五入していないようなので,?となった次第です。

どのようなデータのときにどのようになるか,簡単な例を挙げていただきたいと思いますが。

> 手計算,Excelとマクロともほぼ同じp値ですが,僅かに異なります。
> 手計算>マクロ>Excelとなっています。

具体的に(同上)

> 統計学的には,逆数補間で小数点つきの自由度?なるものまで,勉強しないといけないようですね。これについて,知識を得られるような情報がありましたら,お知らせ頂ければ幸いです。

とりあえずは
http://aoki2.si.gunma-u.ac.jp/lecture/Hokan/hokan.html

     [このページのトップへ]


212. Re^4: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/20 (木) 18:40
> どのようなデータのときにどのようになるか,簡単な例を挙げていただきたいと思いますが。

お手数をおかけしますが宜しくお願いします。次のデータセットで両側のp値を求めてみました。(11,12,13,14,15) と (110,120,130,140,150)です。
等分散では有りませんのでウェルチの検定で求めたp値は以下です。
(Excel)6.94153E-5 df=? (マクロ)7.4519E-5 df=4.08
(手計算)7.96864E-5 df=4 自由度は四捨五入しました。
検定統計量は何れも16.464183と共通ですので,自由度をどの様に扱ったかで,p値が異なると思いますが,Excelの場合は試しにdfを3,4,5でp値を求めてみても,該当するp値は無いし,関数のヘルプとは話が合わないので,不思議に思った次第です。
(Excel)のp値 df=3 4.877E-4 / df=4 7.96864 / df=5 1.50865E-5
ちなみに関数のヘルプでは,自由度は最も近い整数値となっていましたので....。

     [このページのトップへ]


213. Re^5: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 21:31

> 次のデータセットで両側のp値を求めてみました。(11,12,13,14,15) と (110,120,130,140,150)です。

これはまた,極端なテストデータですね(そのために?出た現象でもありますが)。

> 等分散では有りませんのでウェルチの検定で求めたp値は以下です。
> (Excel)6.94153E-5 df=? (マクロ)7.4519E-5 df=4.08
> (手計算)7.96864E-5 df=4 自由度は四捨五入しました。

それぞれが使用した近似式の精度が違うわけで,自由度の問題ではありません。
P 値を正確に求める公式はありません。近似式にもよりますが,小数点以下4,5桁までと見ておいた方が無難でしょう。
その意味では,表示されたP値は実質的に同じです。

> ちなみに関数のヘルプでは,自由度は最も近い整数値となっていましたので....。

「最も近い整数値」というのは「四捨五入」ですよね。

# でも,Excel のヘルプは眉に唾付けながら使いましょう(^_^)
http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/appendix.html

     [このページのトップへ]


214. Re^6: Excelの異分散 t 検定の p 値はおかしくありませんか?  青木繁伸  2000/04/20 (木) 21:39
Excel の関数の精度は以下のようにして確かめることができます。

tinv と tdist が互いに逆関数であることから,
tdist(tinv(p,df),df,2) = p とならないといけません。
df, p をいろいろ変えて確かめるとよいかも。

TDIST(TINV(0.00003,10),10,2) は 0.000030277116372 などとなります。
絶対誤差は小さいものの相対誤差は大きいですね。
もっとも,0<p<1 ですから絶対誤差でいいわけです。
しかし,それでも,小数点以下6桁しか正確ではないということです。

# 教訓:P値は小数点以下3桁くらいで十分

     [このページのトップへ]


216. Re^7: Excelの異分散 t 検定の p 値はおかしくありませんか?  たばこは国分  2000/04/21 (金) 09:23
了解しました。
あまり気にしなくて良い部分へ気を取られていたと言う事でしょうか。

自分の使うαリスクは0.05とか0.1ですので,重箱の隅をつつくような議論でした。
また,例えばαリスク0.05で,p値が0.049と0.051の場合に,検定結果は差異が有りますが,ここから導き出す業務上の結論は同じ現状を鑑みて

> # 教訓:P値は小数点以下3桁くらいで十分

と言うのは良く理解出来ます。
ありがとうございました。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 007 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る