No.11766 生物系データの扱いについて  【LHC】 2010/01/21(Thu) 11:03

いつもお世話になります。
またご質問させて下さい。
前々から不思議に思っていたのに,自分の中で棚上げしていた疑問があります。
それは生物系のデータをパラメトリックなデータとして扱うことについてです。

私 は職業上,臨床試験に関わることがあるのですが,これまでに採取したヒトの白血球数,ヘモグロビン,クレアチン,・・・といった臨床データを見直すと, 32項目中27項目もの検査項目が正規分布であることを棄却されてしまいました。(Shapiro-Wilk 検定/p<0.05で正規性を棄却/各々n=200程度です)
これだけを見ると「生物系のデータは正規分布しないことが多い」となると思います。

しかし生物系の文献をみると,殆どのものが paired-t や student-t, Dunnett, Tukeyなどのパラメトリック検定による統計解析で,ノンパラメトリック検定のものは,少数のように思います。
厚生労働省で審査を受けるような類の文献でもパラメトリック検定が多いように思います。対数変換なども記載していないだけかもしれませんが,行われている様子はありません。
またパラメトリック検定を実施している文献で,生データを記載されているものを検定してみると,そのデータは正規性を棄却されることさえあり,「何でノンパラでやらないんだろう」と前々から思っていました。

これは「生物系データは正規分布することが多い」という大前提の下,皆さんパラメトリック検定を実施しているのでしょうか?
とすれば,その前提の根拠はどこから来ているのでしょうか?
それとも正規性が認められなくとも,パラメトリック検定の方が有意差が得やすい場合はパラでやるといった,その場対応で検定方法を決めるようなことをしているのでしょうか(これはあまり無いと思いますが)。

ご教示頂けましたら幸いです。

No.11767 Re: 生物系データの扱いについて  【青木繁伸】 2010/01/21(Thu) 11:41

結果論で言えば,母分布,等分散の結果を外れるような場合にもウェルチの方法によるt検定をおこなうのがよさそうです。
http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html

No.11776 Re: 生物系データの扱いについて  【LHC】 2010/01/21(Thu) 18:48

早速のご回答ありがとうございます。

>結果論で言えば,母分布,等分散の結果を外れるような場合にもウェルチの方法によるt検定をおこなうのがよさそうです。

すいません。
ご回答の意味をよく理解できておりません。

それはノンパラメトリックなデータでもWelch検定を行うのが好ましいということでしょうか?

No.11777 Re: 生物系データの扱いについて  【青木繁伸】 2010/01/21(Thu) 19:22

あなたの言うノンパラメトリックデータって,正規分布しないデータということでしょうか?(ノンパラメトリックデータとかパラメトリックデータという表現はちょっとおかしいのじゃないかと思います)
リンク先のページをお読みいただけましたか?

No.11779 Re: 生物系データの扱いについて  【LHC】 2010/01/22(Fri) 10:28

>ノンパラメトリックデータとかパラメトリックデータという表現はちょっとおかしいのじゃないかと思います

実 際には正規分布・等分散性を仮定して使う検定がパラメトリック検定,分布型を考えずに使用するのがノンパラメトリック検定,という風に検定方法に付く言葉 なのでしょうが,ここでは正規分布・等分散性が確認できるものをパラメトリックデータ,確認できないものをノンパラメトリックデータと称しました。
言葉の使用法が適切でなく失礼致しました。

リンクは拝見させて頂きました。
二群間で平均値差の検定をする場合は,中央値検定を一辺倒に行うのでなく,分布型が変化してもαエラーの変動が少なく,等分散の仮定が必要でないWelch検定を使うべきだ,ということだと解釈しました。

がやはりご回答の意図がよく理解できておりません。

>結果論で言えば,母分布,等分散の結果を外れるような場合にもウェルチの方法によるt検定をおこなうのがよさそうです。

これは正規分布が確認できなかったり,等分散が確認できないのであれば,まずWelch検定すればよい,という風に聞こえるのですが,このような解釈で合っておりますでしょうか。
も しそうであるとすれば,正規分布も等分散も確認できない二群のデータ間の平均値差の検定でstudent-t検定などがを行われているのを業界の文献で目 にするのですが,これは適切でなく,本来であればWelch検定をすべきだということでしょうか。この場合,一通目の投稿に戻ってしまいますが,なぜ student-tがまかり通っているのでしょうか。

理解力が乏しくお恥ずかしい限りですが,ご教示頂けますでしょうか。

No.11780 Re: 生物系データの扱いについて  【青木繁伸】 2010/01/22(Fri) 11:06

> 本来であればWelch検定をすべきだということでしょうか。

本来かどうかはともかく,提示したような条件下のデータならば, Welch の t 検定が一番よさそうだということで,「すべき」とまでいえるか,「しなくてはならないのか」まではいっていません。

> なぜstudent-tがまかり通っているのでしょうか。

「みな,先例に従っているから」でしょう。査読者も別に問題にしないから,そのまま掲載されるし,読者もクレームを付けないので,そのままになり,そして先頭に戻り,後はぐるぐる堂々めぐり。

No.11792 Re: 生物系データの扱いについて  【surg】 2010/01/23(Sat) 09:43

>あなたの言うノンパラメトリックデータって,正規分布しないデータということでしょうか?(ノンパラメトリックデータとかパラメトリックデータという表現はちょっとおかしいのじゃないかと思います)

どういうわけかこのように表現する人が後を絶たないですね.
昨日も健診関係の某学会で,このような表現をしている発表がありました.
こんな表現をしてしまうと発表内容そのものの信憑性も疑われかねないので,気を付けた方が良いですね.

No.12155 Re: 生物系データの扱いについて  【LHC】 2010/02/23(Tue) 15:37

青木先生,surg様

お礼をしたつもりが投稿できておりませんでした。

大変遅くなり申し訳ございませんでした。

ご回答・ご指導ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る