★ t 検定は使えるか? ★

4025. t 検定は使えるか? RK 2004/08/24 (火) 18:17
└4029. Re: t 検定は使えるか? ktr 2004/08/24 (火) 21:47
 └4034. Re^2: t 検定は使えるか? RK 2004/08/25 (水) 01:47
  └4035. Re^3: t 検定は使えるか? さら 2004/08/25 (水) 02:07
   ├4037. Re^4: t 検定は使えるか? RK 2004/08/25 (水) 02:32
   │└4038. Re^5: t 検定は使えるか? さら 2004/08/25 (水) 06:12
   │ └4039. Re^6: t 検定は使えるか? RK 2004/08/25 (水) 06:56
   │  ├4042. Re^7: t 検定は使えるか? 青木繁伸 2004/08/25 (水) 09:36
   │  │└4045. Re^8: t 検定は使えるか? RK 2004/08/25 (水) 10:56
   │  │ └4046. Re^9: t 検定は使えるか? ktr 2004/08/25 (水) 11:11
   │  └4040. Re^7: t 検定は使えるか? さら 2004/08/25 (水) 07:45
   │   └4041. Re^8: t 検定は使えるか? RK 2004/08/25 (水) 09:21
   └4036. Re^4: t 検定は使えるか? さら 2004/08/25 (水) 02:09


4025. t 検定は使えるか? RK  2004/08/24 (火) 18:17
度々話題になる t 検定適用の正否について,伺いたいことがあります。
トレーニングにより向上する運動能力の測定を行 なっています。ある特定の周波数でトレーニングを行なった後,その周波数を含めた複数の異なる周波数で運動能力を測定します。知りたいことは,「ある周波 数でトレーニングした場合,運動能力が他の周波数でも向上しているとみなせるかどうか」です。
1. まず各周波数で能力値が変化したといえるかどうかを検定したいと思います。この場合,トレーニング前後で周波数毎に測定した能力値を,それぞれの周波数で t 検定するのは問題があるのでしょうか?サンプル数は16です。
2. 次にトレーニングを行なった周波数での値の変化が他の周波数での値の変化と同じといえるかどうかについて検定します。「一元配置分散分析後にダネットの方法を用いて多重比較を行なう」のは正しいですか?
よろしくお願い致します。

     [このページのトップへ]


4029. Re: t 検定は使えるか? ktr  2004/08/24 (火) 21:47
 それぞれの周波数で効果があったかどうかは対応のあるt検定で推論可能だと思います。
http://aoki2.si.gunma-u.ac.jp/lecture/Average/paired-t-test.html
 しかしそれを多数回くりかえすなら,補正をしないと第一種の過誤(本当は差がないのにあると結論する)が大きくなりますね。

 2番目の質問は,なにを従属変数とするのかがちょっと理解しかねます。

 16人のデータがあるなら,2要因の乱塊法に似ているような気がします。各人について,
         周波1 周波2 周波3
トレーニング前   x11    x12    x13
トレーニング後    x21    x22    x23
というデータがあるんですよね。
 被験者16人をブロックとする乱塊法モデルで,交互作用(周波×トレーニング)の有意性から,求めるものを推定できないでしょうか?

     [このページのトップへ]


4034. Re^2: t 検定は使えるか? RK  2004/08/25 (水) 01:47
ktr さん,お返事ありがとうございます。

>  それぞれの周波数で効果があったかどうかは対応のあるt検定で推論可能だと思います。
>  しかしそれを多数回くりかえすなら,補正をしないと第一種の過誤(本当は差がないのにあると結論する)が大きくなりますね。

わからないのがここです。「全体として効果があるか」ではなく,「各周波数で効果があるかどうか」を知りたいのに,データが一つのグラフにある(つまり複数のパラメーターで測定している)場合,「多数回繰り返す」ことになるのですか?
実 際に測定した周波数は4種類です。ボンフェローニの方法で有意水準を補正すればよいのでしょうか。A,B,C というデータがあって,AとB,BとC,CとAを比較するという場合はそれで良いようなのですが,各周波数でトレーニング前後の値を比較する場合は,どう したらよいでしょうか?

>  2番目の質問は,なにを従属変数とするのかがちょっと理解しかねます。

従属変数は運 動能力の変化値です。つまり,トレーニング前と比べて何%変化したかという値を使おうと考えています。すべての周波数同士の組み合わせではなく,「トレー ニングを行なった周波数での変化」と「それ以外の周波数における変化」を比較したいので,ダネットの方法が良いかと思ったのですが,ktr さんがおっしゃるように,トレーニング前後の各データを乱塊法を用いて比較した場合,その後対照群とそれ以外の群を比較するような多重比較はできるので しょうか?

     [このページのトップへ]


4035. Re^3: t 検定は使えるか? さら  2004/08/25 (水) 02:07
有意水準の補正にはいろいろな考え方があり,この場合,1と2は別の解析なので,それぞれ 5% にすればよい,と考えられます。同じデータを使っているのだから,合わせて 5% にしなくちゃ,という人もいるでしょう。

1.ボンフェローニでよいでしょう。簡単な話,4回テストをするので,それぞれを 5/4% ですれば,全体で 5% におさえられるということです。 Tukey, Bonferroni, Shceffe で一番有利になるのを選べばよいです。
2. ここではおっしゃるとおり,変化値を用いてダネットでよいでしょう。ただ,ここで大切なのは,4つの周波数ABCDの観測の順番がランダムである,という ことです。順番がランダムでなければ,有意差がでても,それがトレーニングによるものなのか,観察の順番によるものなのかがわかりません。

つけたし・本当は普通の t 検定よりノンパラメトリックの手法の方がよいですね。また,permutation-t や bootstrap が主流になりつつあります。

     [このページのトップへ]


4037. Re^4: t 検定は使えるか? RK  2004/08/25 (水) 02:32
さらさん,お返事ありがとうございます。

> 1.ボンフェローニでよいでしょう。簡単な話,4回テストをするので,それぞれを 5/4% ですれば,全体で 5% におさえられるということです。 Tukey, Bonferroni, Shceffe で一番有利になるのを選べばよいです。

以 前からここがなかなか理解できません。「全体として差があるか」ではなく,「それぞれの周波数で差があるといえるか」を知りたい場合に,どうして「全体 で」5%に抑えなければならないのでしょうか。複数の周波数で同じ個体から測定しているから,ですか?統計の先生に聞いても「誤解を生じる危険があるか ら」としか説明してもらえませんでした。

シンプルに,「トレーニングを行なった周波数で能力値が変化したといえるかどうか」を検定するなら,5%で対応のある t 検定を行なえばよいのですよね。

> 2.ここではおっしゃるとおり,変化値を用いてダネットでよいでしょう。ただ,ここで大切なのは,4つの周波数ABCDの観測の順番がランダムである,と いうことです。順番がランダムでなければ,有意差がでても,それがトレーニングによるものなのか,観察の順番によるものなのかがわかりません。

な るほど!なんとなく測定の順番がランダムな方が良いと思ってそうしていましたが,順番という別の要因が入るとダネットの方法は使えないのですね。実験前の 計画段階で知っておかなければならないことについてのコメントを今まで聞き流していましたが (-_-;; 重要ですね。ありがとうございます。

     [このページのトップへ]


4038. Re^5: t 検定は使えるか? さら  2004/08/25 (水) 06:12
> 以前からここがなかなか理解できません。「全体として差があるか」ではなく,「それぞれの周波数で差があるといえるか」を知りたい場合に,どうして「全体で」5%に抑えなければならないのでしょうか。

alpha=5% のテストは,本当は全く差がない時でも,間違って「差がある」という結論にたどり着く確率が5%です。一つの検定につき5%でも,多くの検定を行えば,そ のうち少なくとも一つは間違って有意差が示される確率はもっと高くなります。 4つの場合は 1-.95**4 = .185ですね。だから,『それぞれ』でのテストの時こそ,気をつけなくてはいけません。

> シンプルに,「トレーニングを行なった周波数で能力値が変化したといえるかどうか」を検定するなら,5%で対応のある t 検定を行なえばよいのですよね。

他の周波数を無視するなら 検定は一つだけなので 5% でいいでしょう。

> なるほど!なんとなく測定の順番がランダムな方が良いと思ってそうしていましたが,順番という別の要因が入るとダネットの方法は使えないのですね。

ダネットだから,ということではなくて,もっと根本的なところで,こういう実験の場合は順番をランダムにする,というは欠かせないものです。

     [このページのトップへ]


4039. Re^6: t 検定は使えるか? RK  2004/08/25 (水) 06:56
さらさん,しつこい質問に答えていただき,ありがとうございます。

> > 以前からここがなかなか理解できません。「全体として差があるか」ではなく,「それぞれの周波数で差があるといえるか」を知りたい場合に,どうして「全体で」5%に抑えなければならないのでしょうか。
>
> alpha=5% のテストは,本当は全く差がない時でも,間違って「差がある」という結論にたどり着く確率が5%です。一つの検定につき5%でも,多くの検定を行えば,そのうち少なくとも一つは間違って有意差が示される確率はもっと高くなります。 

・・・まだしっくりこないのです。「間違った有意差」であるといえる理由が,いろいろな教科書を読んでもなかなか理解できません。
私のデータの場合,トレーニングを行なった周波数では5%の有意水準で変化ありとなります。このとき,他の周波数での結果にかかわらず,
「トレーニングを行なった周波数で」
運 動能力値に変化があった,といってはいけないのでしょうか。実際には1%でも有意差ありと出るので,ボンフェローニで補正することで結果が変わるわけでは ないのですが,なぜ有意水準を下げなければならないのかの理由が知りたいです。4つの場合で1つだけ5%で有意差が出ることは,「差があるという間違った 結論を出した」ことになるのですか?

結論の表現法によるのではないか,と昔から思っているのですが,そう言うと「それは都合のよい解釈だ」と言われてしまうことがあります。
「トレーニングを行なった周波数では有意に変化したといえるが,他の周波数では有意に変化したとはいえない」という結論を導くのに,5%で駄目な理由がわかりません。

「どこかの周波数で有意に変化したといえるか」ということが知りたい場合は,有意水準を下げなければならない理由もわかる気がするのですが。

> ダネットだから,ということではなくて,もっと根本的なところで,こういう実験の場合は順番をランダムにする,というは欠かせないものです。

ここはよくわかりました。つまり,もし常に同じ順番で測定していた場合は,その順番による効果がありうるので,例えば私のデータの場合,周波数による差について正しく評価できない,ということですね。

くどい質問で申し訳ありません。

     [このページのトップへ]


4042. Re^7: t 検定は使えるか? 青木繁伸  2004/08/25 (水) 09:36
すごく簡単に。

a,b,c,d の処理を一対比較するとき,6通りの検定が必要ですね。
全部の対についての検定結果全体が結論になりますね。
1つの検定の有意水準をαとすると,その検定結果が間違っている確率(第一種の過誤)はα,正しい確率は1−α。6対の検定が独立なので,全部の検定結果が正しい確率は(1−α)^6 そして,どれか一つでも間違えている確率は 1-(1−α)^6。
6対の検定結果を総合した結論が誤っている確率 1-(1−α)^6 これが全体としての第一種の過誤。これをたとえば 0.05 とするならば,個々の検定の有意水準αはいくつでなくてはならないか。
1-(1−α)^6=0.,05
0.95= (1-α)^6
0.95^(1/6)=1-α
α=1-0.95^(1/6)=0.008512445≒0.08/6=0.008333333
「6つの検定結果をまとめた全体としての結果」ならそのようになる。

もし,「個々の検定に注目する」たとえば,aとb,aとd だけの比較に興味があるそして,二つの検定結果は別々のものとして評価するなら上のようなことは必要ない。それぞれの検定を最終的に必要とする有意水準たとえば0.05で検定すればよいだけ。

ただ,現実問題として,データを見てしまった後ではこの二つの場合のけじめがつきにくくなっている。だからこそ,さらさんの言うように,デザインの段階で検定方法を決めるべしということである。
>「周波数Aでは出なかった」
>「周波数Bでは有意差が出た」
>「周波数Cでは出なかった」
>「周波数Dでは出なかった」
>という「別々の」4つの結論を出 す
のなら(「別々の」というところに重点)かまいませんよ。
でも,どの程度別々なのか,読者も別々と理解するのか。

     [このページのトップへ]


4045. Re^8: t 検定は使えるか? RK  2004/08/25 (水) 10:56

青木さん,丁寧な解説ありがとうございます。

> すごく簡単に。
> もし,「個々の検定に注目する」たとえば,aとb,aとd だけの比較に興味があるそして,二つの検定結果は別々のものとして評価するなら上のようなことは必要ない。それぞれの検定を最終的に必要とする有意水準たとえば0.05で検定すればよいだけ。

 まさに知りたかったことはここです。多くの場合,有無を言わせず「有意水準を補正せずに複数回の t 検定をしてはだめ」と言われるだけで,本当にだめなのはどういうときかがわかりませんでした。

  理屈でいえば,始めから個々の検定にのみ注目するとデザインしている実験ならば,それぞれを5%の有意水準で検定してもよい。ただし,現実問題として「始 めから」そうデザインしていたか,「結果を見てから」そうすると決めたのか,読者が判断することはできないので,公正を期すならば有意水準を補正すべき。

と理解しました。

> >「周波数Aでは出なかった」
> >「周波数Bでは有意差が出た」
> >「周波数Cでは出なかった」
> >「周波数Dでは出なかった」
> >という「別々の」4つの結論を出 す
> のなら(「別々の」というところに重点)かまいませんよ。
> でも,どの程度別々なのか,読者も別々と理解するのか。

 これまで無条件にだめと言われてきたこの結論が,どうしてだめなのかがわかりました。大変勉強になりました。

     [このページのトップへ]


4046. Re^9: t 検定は使えるか? ktr  2004/08/25 (水) 11:11
朝(昼)起きたらたくさんのレスがついていて驚きました。
すでに私が付け加えることはないようです。
乱塊法(もしくは反復測定分散分析)モデルでは,対照区と処理区の区別がないので,私もダネットの方法でよいと思います。

     [このページのトップへ]


4040. Re^7: t 検定は使えるか? さら  2004/08/25 (水) 07:45
正しく検定を行うには,まずデータを集める前に,どういう解析を行うか,明確に宣言しなくてはいけません。やや話がそれますが, データを見てから仮説を立てる,というのもいけませんし,一つの仮説に対して,有意差が出る検定方法を探すためにいろいろ試すというのも,本当はいけませ ん。

この場合も,最初から「トレーニングを行った周波数」だけが問題なら,それだけを有意水準5%で検定するべきです。他の周波数の検定も行うのであれば,有意水準の補正が必要です。

というのも,今は「トレーニングを行った周波数」だけで有意差が出たようですが,もし仮に,周波数Bだけで有意差あり,と出たら『周波数Bで有意差がでた!』という結論になります。

4つの検定を行う,ということは,「差がある」という間違った結論を出す機会を4回与えられるということです。

うまく説明できなくて申し訳ありませんが,有意水準の補正の必要性は,検定の結果によってではなくて,検定の計画によって生じるものです。いくつの仮説を検定したいか,が問題ですね。

     [このページのトップへ]


4041. Re^8: t 検定は使えるか? RK  2004/08/25 (水) 09:21

> この場合も,最初から「トレーニングを行った周波数」だけが問題なら,それだけを有意水準5%で検定するべきです。他の周波数の検定も行うのであれば,有意水準の補正が必要です。
>
> というのも,今は「トレーニングを行った周波数」だけで有意差が出たようですが,もし仮に,周波数Bだけで有意差あり,と出たら『周波数Bで有意差がでた!』という結論になります。

「有意水準の補正の必要性は,検定の結果によってではなくて,検定の計画によって生じるものです」という意味がなんとなくわかってきました。検定前にはどこの周波数で変化しているかは不明なので,結局前回私が書いた
「トレーニングを行なった周波数では有意に変化したといえるが,他の周波数では有意に変化したとはいえない」
という結論は,結果が出てからでないと出てこない結論であり,それはやってはいけない。検定前に置くべき帰無仮説は,結局
「どこの周波数でも有意に変化したとはいえない」
であり,対立仮説は
「どこかの周波数で有意な変化があった」
となるのですね。こう書いてみると,青木先生のホームページを含め,多くの教科書でもそのように書いてあるので,単に私の文章理解力に問題があったということでしょうか・・・

> うまく説明できなくて申し訳ありませんが,有意水準の補正の必要性は,検定の結果によってではなくて,検定の計画によって生じるものです。いくつの仮説を検定したいか,が問題ですね。

各周波数ごとに5%で検定して
「周波数Aでは出なかった」
「周波数Bでは有意差が出た」
「周波数Cでは出なかった」
「周波数Dでは出なかった」
という「別々の」4つの結論を出してはいけない理由を,もう少しすっきり理解したいのですが・・・

統計の専門家の方には容易に理解できるようですが,少なくとも私の周りの心理学・生物学の研究者の中にはこの問いに答えられる人がいません。論文を読んでも統一見解はなさそうですし。

よろしく解説お願いします。

     [このページのトップへ]


4036. Re^4: t 検定は使えるか? さら  2004/08/25 (水) 02:09
> つけたし・本当は普通の t 検定よりノンパラメトリックの手法の方がよいですね。また,permutation-t や bootstrap が主流になりつつあります。

これは少し言いすぎでした。まだ主流にはなっていませんね。
でも t検定は100年前のテクニックで,時代遅れな気がしませんか?

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 030 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る