★ 生物学的データの閾値設定について ★

6109. 生物学的データの閾値設定について Kentucky 2005/03/03 (木) 02:06
└6113. Re: 生物学的データの閾値設定について 青木繁伸 2005/03/03 (木) 11:41
 └6114. Re^2: 生物学的データの閾値設定について 青木繁伸 2005/03/03 (木) 11:56
  └6115. Re^3: 生物学的データの閾値設定について 青木繁伸 2005/03/03 (木) 11:59
   └6131. Re^4: 生物学的データの閾値設定について Kentucky 2005/03/05 (土) 03:50


6109. 生物学的データの閾値設定について Kentucky  2005/03/03 (木) 02:06
 生物学的なデータに閾値を設定する方法を質問させてください。過去に似た旨のスレッドを見つけましたが,残念ながら理解できませんでした。

 最終目的ですが,数百のサンプルから得られた1種類のデータを2群に分けたいのです。その際の閾値設定ですが,最終的には生物学的な面から設定するべきですが,その設定が統計学的にも妥当であることを示したいと思っております。

  母集団は物質A1〜Anで,それぞれに独立しています。1つの物質は1つのスコアを持ちます。母集団A1〜Anが正常なスコアを示すもののみの集団なの か,少数の異常値(他より明らかに大きい値)を示す集団を含んでいるのかは不明です。というか異常値を含む集団があるかどうかを判別するのが目的です。ス コアは-20から+20までの連続した値をとり,正規分布には従いません。スコアが0より大きいもののみが異常値である可能性があります。従って分析前に スコアが0未満のものを除外することもできます。
 たとえば得られたスコアが「 -5, -1, 0, 0.1, 0.3, 0.5, 0.7, 5, 8」 といった値である場合,0未満のデータを無視すると二峰性の分布を示しており,スコア5, 8 は明らかに他より大きいので,0.7以下を正常値,5以上を異常値と判断します。この際,正常と異常を分ける閾値は0.7〜5の中に入りますが,その妥当 性を統計学的に示すことはできますでしょうか。また得られたスコアがもっと連続的な値を示した場合,例えば「-5, -1, 0, 0.1, 0.3, 0.5, 0.7, 2, 3, 5」の時,どこに閾値を設定するべきか,そのときの誤判別の確率(用語が正しいかどうか分かりません),あるいはそもそも妥当な閾値は存在しないのかを統 計学的に検定できますでしょうか。実験のデザインから考えると,このケースでは0.7と2の間に閾値を設定するのが「生物学的」に妥当と判断します。
「予測誤差を最小にする値を探す」というのがもっとも妥当な方法かとも考えたのですが,その妥当性も具体的な方法も分からずに困っております。どなたかお力を貸していただければ幸いです。

     [このページのトップへ]


6113. Re: 生物学的データの閾値設定について 青木繁伸  2005/03/03 (木) 11:41
一変量データなのですね。
有効なデータを小さい順に並べて,以下のことを繰り返すとします。
 分割点を i 番目と i+1 番目のデータの間に置く(つまり,データの小さいグループ は i 個のデータを含み,もう一方は n-i 個のデータを含む)
 そのように分割された二群のデータについて,群間分散と群内分散の比(F 値)をとる。
  このF値は,一元配置分散分析のF値と同じ値で,意味することも同じ。すなわち,二群の平均値に差があるかどうかということ。別の解釈で言えば,各群内で の平方和はなるべく小さく,群間の平方和はなるべく大きくということであり,相関比を大きくするという目的関数を使う一変量を使った判別分析になってい る。また,一次元の k-means クラスターにもなっている。

このようなことから考えれば,上述のように分割点を移動しながら計算さ れる F 値が最も大きくなる(P 値が最小になる)点がデータの最適な分割点ということになるだろう。あるいは,P 値が 0.05 より小さくなる分割点はいずれも優劣を付けがたい(分割点はこの範囲あたりにあるだろう)としてもよいだろうが。

もうひとつ,上のやり方は結局は t 検定と同じなのだが,もし,各群の分散が異なる場合にはどうなるのかということ。上のやりかたは,等分散を仮定している。しかし,等分散を仮定しない Welch の方法による t 検定を使うこともできるだろう。

さ て,残された問題点は,もし,データが正規分布に従わないような場合にはどうしたらよいかということであるが,先には一元配置分散分析の F 値を計算するとは言ったが,それは,二群の場合には t 検定と同義である。そうすれば,データが正規分布しない場合には上のようにして分割点を変えながら,分割された二群についてマン・ホイットニーのU検定を 行い,そのP 値が一番小さくなるところが最適の分割点としてもよいだろうと言うこと。ではないかな。

     [このページのトップへ]


6114. Re^2: 生物学的データの閾値設定について 青木繁伸  2005/03/03 (木) 11:56
R で計算してみると以下のようになりました
>  x <- c(0, 0.1, 0.3, 0.5, 0.7, 2, 3, 5)
>  
>  fn <- function(x)
+  {
+      x <- sort(x)
+      n <- length(x)
+      for (i in 2:(n-2)) {
+          result2 <- wilcox.test(x[1:i], x[(i+1):n])$p.value
+          result3 <- t.test(x[1:i], x[(i+1):n])$p.value
+          result4 <- t.test(x[1:i], x[(i+1):n], var.eq=TRUE)$p.value
+          printf("%i %.5f %.5f %.5f\n", i, result4, result3, result2)
+      }
+  }
>  
>  fn(x) 以下が答え
2 0.22077 0.05475 0.07143
3 0.10484 0.06293 0.03571
4 0.03645 0.07260 0.02857
5 0.00401 0.07309 0.03571
6 0.00328 0.15763 0.07143
1列目は,小さい方から取ったデータの個数
2列目は,等分散を仮定した t 検定の P 値
3列目は,等分散を仮定しない Welch の方法による t 検定の P 値
4列目は,マン・ホイットニーの U 検定の P 値
仮定によって(というか,方法によって)だいぶ結果が違いますね。

     [このページのトップへ]


6115. Re^3: 生物学的データの閾値設定について 青木繁伸  2005/03/03 (木) 11:59
あ,マン・ホイットニーの U 検定を使うのは,自明な(無意味な)解でしたね。
いつでも,「等分すれば一番よい」という結果しか出ません,よねぇ。

     [このページのトップへ]


6131. Re^4: 生物学的データの閾値設定について Kentucky  2005/03/05 (土) 03:50
青木様,早々のお返事大変ありがとうございました。とても分かりやすく,おかげさまでこの問題を解決することができました。
恥ずかしながら,コンピューターに関しては全くのエンドユーザーでして,アプリケーションしか使ったことがありませんでした。そのために,「R」のプログラムを自分で走らせるまでに時間がかかってしまい,お返事が少々遅くなってしまいました。失礼をいたしました。
それにしても,「R」はなかなかの優れものですね。今後も少しずつ,勉強していきたいと思います。

ところでデータを解析を進めていくうちに,新たな問題にぶつかりました。新たな質問となりますので別スレッドを立てさせていただきました。

医学分野にいながら検査値の正常範囲を求める方法すら理解できていなかったことを深く恥じております。これを機にもう少し勉強いたします。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 032 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る