No.02964 発現解析のデータ  【tomo】 2007/03/09(Fri) 11:06

はじめて質問させていただきます。
私は,ある癌の遺伝子発現を網羅的に調べる研究を行っております。
発現が増加した遺伝子数を染色体番号ごとに調べると,

染色体番号 対象遺伝子数(個) 増加遺伝子数(個)
1番染色体 A1 B1
2番染色体 A2 B2

22番染色体 A22 B22
X染色体 Ax Bx

といったデータが得られます。
これは,1番染色体のA1個の遺伝子を解析したらB1個の遺伝子において発現の増加がみられた。ということを意味します。
このとき,ある特定の染色体で増加遺伝子数に変化があることを統計学的に示すには,どのような方法が適しているでしょうか。
私は,各染色体ごとの比率(A1/B1)を全体の比率(ΣAn/ΣBn)に対して,母比率の検定を行えばよいかと考えたのですが,これでよいのでしょうか。
データの大きさは,A: 200〜2000,B: 10〜100程度です。

No.02970 Re: 発現解析のデータ  【ファン】 2007/03/10(Sat) 18:01

そのような場合は,分割表形式にして独立性の検定(カイ自乗検定)を行うと,染色体グループを分けて発現特性の違いを検定する際に,汎用性が高くなると思います。
1) 遺伝子発現特性に有意差があるかどうかを『全染色体同時』に見る場合: 23×2 の分割表
 染色体番号 増加遺伝子数(個) 非増加遺伝子数(個) 計:対象遺伝子数(個)
 1番染色体 B1 A1 - B1 A1
 2番染色体 B2 A2 - B2 A2
… …          … …
 22番染色体 B22 A22 - B22 A22
 X染色体 Bx Ax - Bx Ax
 計 M N - M N

2) 『1番染色体と他の染色体との比較』で見る場合: 2×2 分割表
 染色体番号 増加遺伝子数(個) 非増加遺伝子数(個) 計:対象遺伝子数(個)
 1番染色体 B1 A1 - B1 A1
 他の染色体 M - B1 (N-A1) - (M-B1) N - A1
 計 M N - M N
 (2×2分割表の独立性のカイ自乗検定は,2群の母比率の差の正規検定と同等)

3) 任意の染色体グループ分けも,同様に,分割表の行統合で可能。

No.02973 Re: 発現解析のデータ  【青木繁伸】 2007/03/11(Sun) 00:07

ファンさんのまとめてくれた (1) の23×2分割表ですが,下のデータがどのように採られているかちょっと疑問なので,妥当性が保証されないかも

というのは,ある一人の23染色体について調べていると思うんですね(場合によってはいくつかの染色体についてのデータがないと言うこともあるかも知れないが)
そうすると,これは独立標本ではなくなるので,(1)のような表を作るわけにはいかなくなるのでは?

> A: 200〜2000,B: 10〜100程度

というのがわからない。

No.02979 Re: 発現解析のデータ  【ファン】 2007/03/11(Sun) 23:53

その後ネットで調べてみると,遺伝子発現回数の計測は恐ろしく進んでいるようで,1度に数百から数万種類の遺伝子について正確にコピー回数がわかるそうですね。
(解説サイト)http://www.cghtmd.jp/CGHDatabase/about/dna_chip_j.htm

>これは独立標本ではなくなるので,(1)のような表を作るわけにはいかなくなるのでは?

「独立標本」の意味がイマイチどの部分なのか,わかっていないのですが(汗

a) 各染色体内(分割表の一行内)の二項分布:データの各遺伝子は染色体内遺伝子の無作為標本ではない → 決められた各遺伝子に「発現増」が生じるか否かが 独立な事象と(帰無仮説では)考える。また発現増は,おそらく正常染色体との比較結果(相対値?)なので,検査対象が正常(帰無仮説)なら,遺伝子間の相 関はすでに除去されているかも。

b) 染色体間(分割表の行間)の独立性:上のa)のように考えれば「帰無仮説上は」さほど不自然ではないのでは?

c) 列和が変化する分割表:各行が二項分布になる r×2 分割表は,(r = 2 の時2群の母比率の差の正規近似両側検定と正確に一致するように),r 群の母比率の同一性の検定になるので,自由度 r - 1 のカイ自乗検定を使用する上での問題はない。

しかし a)b) はデータの背後の問題なので,「偶然変動ではない」と言いたい時の「偶然変動候補」としてふさわしいかどうかは,当然,その専門分野の方しか判断できない事柄ですね。

No.02987 Re: 発現解析のデータ  【tomo】 2007/03/12(Mon) 14:31

ファン様,青木先生 ありがとうございます。
週末ネットがつながらない場所にいて返信が送れて申し訳ありません。

A:200〜2000,B:10〜100程度というのは,
1番染色体     1800個     16個
2番染色体     1200個     15個
というように,解析対象の遺伝子数が染色体ごとに異なっていて200個〜2000個の幅があり,変動を示す遺伝子数にも10個〜100個程度と幅があります。
わかりにくい表現ですみませんでした。

少し追加させてください。
データの取り方ですが,私らは癌細胞からRNAを抽出し,ヒトの全部の遺伝子に対して網羅的に発現解析を行うという方法をとっています。遺伝子のプローブを超高密度にスポットしたアレイと呼ばれるガラスを解析に用います。

ヒトの遺伝子は約3万といわれており,私たちが使っているアレイは4万個のプローブで遺伝子発現の全体を調べています。(重要な遺伝子は複数のプローブがある)
ファン様が調べていただいたhttp://www.cghtmd.jp/CGHDatabase/about/dna_chip_j.htmのサイトは,ゲノムのコピー数を調べる方法で,原理はほとんど同じなのですが調べる対象が癌のゲノムDNAであることが異なっています。
発現解析の前にゲノムコピー数の変化をあらかじめ調べており,染色体の数が増えている領域で,発現が上昇していることが分かってきつつあるところです。

ゲノムコピー数の変化を考えずに,発現のみに注目した場合,ファン様のご指摘の通り各染色体間は独立と考えて差し支えないので,23×2の分割表によるカイ自乗検定を試みます。ありがとうございました。

この領域の生物学的な点にご興味をもたれた方がいらっしゃれば,もっと詳細に説明することが可能です。アレイを使った研究は,対象となる遺伝子が多くデータの洪水になってしまいがちなので,統計学的な手法・センスが必須なのですが,なかなか勉強が追いつきません。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る