No.09460 Re: 癌細胞と良性細胞の比較 【青木繁伸】 2009/03/05(Thu) 23:36
判別分析とかロジスティック回帰分析(プロビット回帰分析)とか?
No.09469 Re: 癌細胞と良性細胞の比較 【けん】 2009/03/06(Fri) 21:59
青木 繁伸 様
ご回答,ありがとうございます。判別分析,ロジスティック回帰分析について,勉強 してみます。(門外漢のため,分かりませんので)この方法についての疑問や癌細胞と良性細胞の核の比較に使えるかどうかなど,分からないことがありました ら,すみませんがよろしくご指導ください。
No.09472 Re: 癌細胞と良性細胞の比較 実データ 【けん】 2009/03/07(Sat) 08:13
以下は,癌細胞と良性細胞の核の実データ(一部)です。データを散布図にプロットしてみていますが,癌細胞の方が 変動係数が小さく,濃度が高いようです。このようなデータを統計学的に判定する(有意差があるかどうか)場合,判別分析やロジスティック回帰分析がいいで すか? すみませんが,ご指導よろしくお願い致します。癌細胞
核個数 濃度平均 分散 変動係数
1 132.65 264.0625 1.99
2 130.47 150.3076 1.15
3 143.28 166.9264 1.17
4 119.50 114.7041 0.96
5 124.41 235.0089 1.89
6 135.05 325.8025 2.41
7 128.76 87.9844 0.68
8 116.11 261.4689 2.25
9 120.28 95.0625 0.79
10 130.23 149.0841 1.14
11 128.21 176.6241 1.38
12 122.42 146.1681 1.19
13 131.76 178.4896 1.35
14 152.41 186.5956 1.22
15 127.45 170.0416 1.33
16 134.29 94.6729 0.70
17 152.59 151.2900 0.99
18 132.27 152.0289 1.15
19 133.35 84.6400 0.63
20 128.19 162.0529 1.26
良性細胞
核個数 濃度平均 分散 変動係数
1 112.63 172.40 1.53
2 100.56 163.58 1.63
3 118.74 150.80 1.27
4 113.69 188.79 1.66
5 142.82 155.50 1.09
6 120.13 126.34 1.05
7 136.70 127.69 0.93
8 117.57 151.78 1.29
9 106.41 183.87 1.73
10 109.81 214.92 1.96
11 120.18 181.44 1.51
12 131.93 190.99 1.45
13 121.68 343.73 2.82
14 105.60 194.60 1.84
15 123.70 287.64 2.33
16 138.29 211.70 1.53
17 118.50 220.82 1.86
18 111.80 351.94 3.15
19 106.41 137.83 1.30
20 105.81 198.25 1.87
No.09473 Re: 癌細胞と良性細胞の比較 【青木繁伸】 2009/03/07(Sat) 12:28
核の個数というのはなんですか?単なる通し番号ですか?
No.09475 Re: 癌細胞と良性細胞の比較 【sb】 2009/03/07(Sat) 15:13
データをrandomに2分割(サンプルサイズはいずれも20)。1つをモデル構築用に使用,他方を未知の予測用 データとする。目的変数を 1:= がん細胞, 0;= 良性細胞とし,説明変数として,核の数と平均濃度を使用。ロジステック回帰分析を行ない,予測確率が0.5以上のものを癌細胞,そうでないものを良性細胞 と分類した。
結果。モデル構築用データ。
良性 癌 (予測)
-------------------------
良性 9 2
癌 2 7
-------------------------
感度:= 7/9 = 77.8 %
特異度:= 9/11 = 81.8 %
モデル検証用データ。
良性 癌 (予測)
-------------------------
良性 7 2
癌 4 7
-------------------------
感度:= 7/11 = 63.6 %
特異度:= 7/9 = 77.8 %
No.09479 Re: 癌細胞と良性細胞の比較 【surg】 2009/03/07(Sat) 21:23
sb氏と同様に判別分析.ただし,説明変数は濃度の平均と分散.> library(MASS)
> data <- data.frame(
+ malig=c(rep('malignant', 20), rep('benign', 20)),
+ mean=c(132.65, 130.47, 143.28, 119.5, 124.41, 135.05, 128.76, 116.11, 120.28,
+ 130.23, 128.21, 122.42, 131.76, 152.41, 127.45, 134.29, 152.59, 132.27,
+ 133.35, 128.19, 112.63, 100.56, 118.74, 113.69, 142.82, 120.13, 136.7,
+ 117.57, 106.41, 109.81, 120.18, 131.93, 121.68, 105.6, 123.7, 138.29,
+ 118.5, 111.8, 106.41, 105.81),
+ var=c(264.0625, 150.3076, 166.9264, 114.7041, 235.0089, 325.8025, 87.9844,
+ 261.4689, 95.0625, 149.0841, 176.6241, 146.1681, 178.4896, 186.5956,
+ 170.0416, 94.6729, 151.29, 152.0289, 84.64, 162.0529, 172.4, 163.58,
+ 150.8, 188.79, 155.5, 126.34, 127.69, 151.78, 183.87, 214.92, 181.44,
+ 190.99, 343.73, 194.6, 287.64, 211.7, 220.82, 351.94, 137.83, 198.25))
>
> s1 <- sample(1:40, 20)
> s2 <- setdiff(1:40, s1)
> data.lda <- lda(malig ~ mean + var, data=data[s1,])
> data.prd1 <- predict(data.lda, newdata=data[s1,])$class
> data.prd2 <- predict(data.lda, newdata=data[s2,])$class
>
> (t1 <- table(data[s1,]$malig, data.prd1))
data.prd1
benign malignant
benign 7 3
malignant 3 7
>
> t1[2, 2] / sum(t1[2,])
[1] 0.7
> t1[1, 1] / sum(t1[1,])
[1] 0.7
>
> (t2 <- table(data[s2,]$malig, data.prd2))
data.prd2
benign malignant
benign 9 1
malignant 2 8
>
> t2[2, 2] / sum(t2[2,])
[1] 0.8
> t2[1, 1] / sum(t2[1,])
[1] 0.9
No.09480 Re: 癌細胞と良性細胞の比較 【sb】 2009/03/07(Sat) 22:29
以前,MASSに紹介してある決定木(rpart),ニューラルネット(nnet)で遊んでいたことがありますが,結果は似たり寄ったりですね。予測は難しい。特に未知のデータに関しては。と云ったのは誰でしたっけ。
No.09482 Re: 癌細胞と良性細胞の比較 【surg】 2009/03/08(Sun) 07:31
説明変数が2変数程度だと,確かにどの手法でもあまり変わらないような印象があります.説明変数が10以上でサンプルサイズも大きいのであれば random forest は試す価値があると思いますが,このケースでは他の手法とあまり変わらないかもしれません.
No.09485 Re: 癌細胞と良性細胞の比較 【けん】 2009/03/08(Sun) 23:52
青木繁伸 様
> 核の個数というのはなんですか?単なる通し番号ですか?
核1個1個のクロマチンの濃度とクロマチン濃度のバラツキ(変動係数)を計測したものです。(計測した核の個数です)
sb 様 surg 様 ご指導,ありがとうございます。
私が知りたいことと,少しずれているような気がしています。
たとえば,癌と良性細胞の核は,散布図では濃度のバラツキ(変動係数)が異なるようです。ですから,ノンパラメトリック統計というより,対応するt検定(同じ標本中の癌と良性細胞という意味)によって,変動係数の差をみたいと思ったものですが,間違いでしょうか?
癌細胞と良性細胞の判別ではなくて,癌細胞と良性細胞で核の計測数値に有意差があるかどうかを知りたいのですが。
No.09486 Re: 癌細胞と良性細胞の比較 【sb】 2009/03/09(Mon) 07:35
意味を取り違えておりました。
また,核の個数と平均濃度を用いて,ロジスティック回帰を行なったと云うのも間違いで,平均濃度と分散で解析を行なっています。しかし,平均濃度とその分散で回帰分析を行なうと云うのも妙な話ですので,9475は無視して下さい。
No.09488 Re: 癌細胞と良性細胞の比較 【surg】 2009/03/09(Mon) 12:25
>> 核の個数というのはなんですか?単なる通し番号ですか?
> 核1個1個のクロマチンの濃度とクロマチン濃度のバラツキ(変動係数)を計測したものです。(計測した核の個数です)
> ですから,ノンパラメトリック統計というより,対応するt検定(同じ標本中の癌と良性細胞という意味)によって,変動係数の差をみたいと思ったものですが,間違いでしょうか?
なんだかよくわからないのですが,9472の「核の個数」というのは本当は標本のIDなのですか?
No.09492 Re: 癌細胞と良性細胞の比較 【けん】 2009/03/09(Mon) 15:46
No. 9459 に
症例ごとに100個の核の濃度と濃度のバラツキ(分散値)を測定したデータを使って・・・
書いてあるとおり, 1症例ごとに100個の核の濃度と変動係数(バラツキ)を測定しています。核の個数とはそういう意味ですが,分りにくいでしょうか?
濃度のバラツキ(分散値)とは,一個の核内のクロマチン粒子のバラツキのことなので,
もしかしてこれが誤解の原因かもしれません。
No.09495 Re: 癌細胞と良性細胞の比較 【青木繁伸】 2009/03/09(Mon) 16:05
> 分りにくいでしょうか?
わかりにくいですね。全くわかりません。
なぜ,「1症例ごとに100個の核」を測定しているのに,「核の個数」が1〜20なんですか。
> 濃度のバラツキ(分散値)とは,一個の核内のクロマチン粒子のバラツキのことなので,もしかしてこれが誤解の原因かもしれません。
そんなこと,最初の質問には書いていないので,誤解されても当たり前ですね。
No.09500 Re: 癌細胞と良性細胞の比較 【けん】 2009/03/09(Mon) 21:35
青木様 wrote:
> なぜ,「1症例ごとに100個の核」を測定しているのに,「核の個数」が1〜20なんですか。
No. 9472に,以下は,癌細胞と良性細胞の核の実データ(一部)です。・・・・と,書いたとおり,データの一部(抜粋)です。実データをみてもらった方が分かりやすいかなと思い,また100個だと多くなるので一部抜粋しました。
No.09503 Re: 癌細胞と良性細胞の比較 【青木繁伸】 2009/03/09(Mon) 23:56
核の個数が1の所に書いてあるのは,50症例から1個ずつの核の測定値を持ってきて平均等を求める。個数が2の所 に書いてあるのは,50症例から2個ずつの核の測定値を持ってきて平均等を求める。個数が100の所に書いてあるのは,50症例から100個ずつ(全部) の核の測定値を持ってきて平均等を求める。そんなことをしているというのでしょうか?説明されても説明されても,ちっとも理解が進みません。
# 段落内で無用な改行するのは止めてくださいと,上の注意書きにも書いてあるのですけど。
No.09508 Re: 癌細胞と良性細胞の比較 【surg】 2009/03/10(Tue) 08:22
「核の個数」というのは,要するに「単一症例由来の核のID」なんですよね?
No.09526 Re: 癌細胞と良性細胞の比較 【けん】 2009/03/10(Tue) 11:58
surg 様
> 「核の個数」というのは,要するに「単一症例由来の核のID」なんですよね?
そうです。No. 9472のデータというのは,1つの症例分です。その症例の核を100個計測し,そのうち20個を抜粋しました。No. 9479の解析はR(ソフト)によるものでしょうか。こちらも勉強させてもらっているところです。ありがとうございました。
● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る