★ 生物学的データの群分けについて(その1) ★

6132. 生物学的データの群分けについて(その1) Kentucky 2005/03/05 (土) 06:59
└6133. Re: 生物学的データの群分けについて(その2) Kentucky 2005/03/05 (土) 07:00
 └6134. Re^2: 生物学的データの群分けについて(その2) 青木繁伸 2005/03/05 (土) 08:29
  └6135. Re^3: 生物学的データの群分けについて(その2) 青木繁伸 2005/03/05 (土) 08:32
   └6136. Re^4: 生物学的データの群分けについて(その2) Kentucky 2005/03/05 (土) 10:03
    └6137. Re^5: 生物学的データの群分けについて(その2) 青木繁伸 2005/03/05 (土) 21:11
     └6160. Re^6: 生物学的データの群分けについて(その2) Kentucky 2005/03/08 (火) 02:59
      └6163. Re^7: 生物学的データの群分けについて(その2) 青木繁伸 2005/03/08 (火) 11:31


6132. 生物学的データの群分けについて(その1) Kentucky  2005/03/05 (土) 06:59
6109にて質問させていただいた者です。前件についてはおかげさまで解決したのですが,再度皆様のお力をお借りしたく思います。長い質問となることをお許しください。

前件では1変量データでしたが今回は2変量データから「正常」「異常」に群分けしたいのです。
1.約300個のサンプルはそれぞれ2つのスコア(X,Y)を持つ
2.実験Yは実験Xの結果を検証するために独立に行われたもので,ほとんど同じ実験であるがサンプルの処理の仕方が若干違う
3.理論的にはX,Yは「鏡像」を示す。片方が1なら−1,−5なら5など。すなわち理論的にはすべてのデータはY=-X上にのる。データがこの直線から著しく離れている場合は実験上のFALSEデータである
4.サンプルが「正常」である場合,X,Yはともに0(理論的には)

以上を勘案すると,「異常」のグループは
1.他のデータと明らかに違う(X,Y)分布を示す
2.XとYは異なる符合を持つ
3.「異常」のグループはX軸上で負のこともあれば正のこともある
ただし,
XとYの絶対値がともに閾値以上(XとYの閾値が同じである必要はない)である。実験デザインから考えて0.3以上であることが必要。この値は実験デザインに基づいて定めるべきであるが,統計学的な裏づけが必要。
言い換えればY=-Xからの距離が遠すぎる,すなわちYの絶対値/Xの絶対値が1から極端に離れているとFALSEデータとして扱いたい。

となります。

「その2」に例を示します。

     [このページのトップへ]


6133. Re: 生物学的データの群分けについて(その2) Kentucky  2005/03/05 (土) 07:00
(続き)
例 (実際には約300サンプル)

sample X Y
1 4.79 4.79
2 0.02 -0.01
3 0.01 0.02
4 0.01 0.07
5 0.30 -0.01
6 -0.02 0.05
7 -0.01 -0.11
8 0.10 -0.01
9 1.06 -1.50
10 1.90 -1.30
11 0.03 -0.09
12 0.30 0.01
13 0.01 0.14
14 0.04 0.12
15 0.02 -0.04
16 -0.01 0.10
17 0.01 0.02
18 -2.00 1.05
19 -1.17 1.62
20 0.02 0.17
21 0.02 -0.08
22 0.00 0.25
23 -0.20 0.17
24 -0.55 -0.37
25 0.03 -0.05
26 0.03 0.00
27 0.00 -0.36
28 -0.02 -0.15
29 -0.02 -0.15
30 -4.79 0.10

サンプル9,10および18,19が「異常」です。サンプル1はX,Yの符号が同じ,サンプル30はY=-Xからの距離が遠いということでFALSEデータです。
データX,Yは正規分布に従います。
(Webで拾ったフリーウェアでカイ2乗検定をすると,正規分布に従わないとなるのですが,青木様の「R」を使うと正規分布に従うとなるのですが,どういうことなのでしょうか?)

私が試したことは
X,Yそれぞれにスミルノフ・グラッブス検定を行い,それぞれの「外れ値」を見つける。
X,Yのいずれにても「外れ値」と判断され,かつXとYの符号が異なるサンプルを「異常値」とする。

でした。
この方法は妥当でしょうか。
多変量を用いた判別分析を用いるべきなのでしょうか。
またスミルノフ・グラッブス検定を用いることは妥当なのでしょうか。

長い質問となってしまい,申し訳ありません。
お力をお貸しいただけると幸いです。

     [このページのトップへ]


6134. Re^2: 生物学的データの群分けについて(その2) 青木繁伸  2005/03/05 (土) 08:29
> データX,Yは正規分布に従います。
> (Webで拾ったフリーウェアでカイ2乗検定をすると,正規分布に従わないとなるのですが,青木様の「R」を使うと正規分布に従うとなるのですが,どういうことなのでしょうか?)

使用したフリーソフトとは,どこにある何というものですか。
また,私の R プログラムなのですか,だすればどれですか。単に R を使ったというなら,その中のどういう関数を使ったのですか。
これが分からないと,「別の答えが出てきたのだが」といわれても,どうともお返事すらできません。

分析法についてですが,二変量といってもちょっと違うように思われますね。y/x の値を使って,前のような手法でよろしいのでは?
y/x が負のものと0近辺のものと大きな値をとるものという3群になるのでしょうが,取りあえずx,y の符号が異なるものは異常値と決めるなら,前の問題と同じく二群の群分けの問題に帰結できるのではないでしょうか。

     [このページのトップへ]


6135. Re^3: 生物学的データの群分けについて(その2) 青木繁伸  2005/03/05 (土) 08:32
> データX,Yは正規分布に従います。

感覚的に言えば,このような大きな値がある程度頻繁に出てくる分 布は正規分布とはいえないでしょう。すくなくとも,大きな値を持つデータが異常値ということなら,少なくとも正常値と異常値は別々の分布に従っているとす べきでしょう。すくなくとも,観察された分布は混合分布ということ。

     [このページのトップへ]


6136. Re^4: 生物学的データの群分けについて(その2) Kentucky  2005/03/05 (土) 10:03
青木様

早々のお返事をありがとうございます。ご指摘の件につきまして,補足させていただきます。

使用したソフトは http://www.chiringi.or.jp/soft/kaisetu/StssBunpu.htm にありましたSTSS_excelです。
これの正規分布型検定を利用しましたところ,カイ2乗値が100を越していました。
青木様のプログラムですが http://aoki2.si.gunma-u.ac.jp/R/normaldist.html のものを使用しました。
これによるとp値が0.00001ぐらいになりました。
なお本当のサンプル数は300程度ありまして,そのうち10個前後が大きな絶対値をとり,その他のデータは0を中心とした山型のヒストグラムを示しています。
掲載のためデータを一部抜粋をしたためにかなり歪んでしまっていました。申し訳ありませんでした。

混合分布ではないかとのご指摘,そのとおりかと思います。ただ,その扱い方が分かりません。

さて,私の質問の内容ですが,説明不足であったかと思います。補足させてください。

「X,Yの符号が異なるものが異常値」ではなく,「他と明らかに異なる分布を示しているもののうち,X,Yの符号が異なるものが異常値」です。
「他と明らかに異なる分布を示しているが,X,Yの符号が同じ,あるいは著しくy=−xから離れている」ものは実験上のFALSEデータです。
例 に挙げましたデータですが,散布図を描くと多くが原点周辺に位置します。この集団から離れているというのが第1条件です。例のデータが歪んでいるための誤 解かと思いますが,たとえば(X,Y)=(0.01,-0.01)というデータは正常値に入ります。一方で(3,−3)というデータは異常値です。
このため,y/xからだけでは判断がつきません。

質問の趣意がご理解いただけましたでしょうか。つたない文章をお許しください。

以上の補足説明を踏まえてまたお教えいただけますと幸いです。よろしくお願いいたします。

     [このページのトップへ]


6137. Re^5: 生物学的データの群分けについて(その2) 青木繁伸  2005/03/05 (土) 21:11
> これの正規分布型検定を利用しましたところ,カイ2乗値が100を越していました。
> 青木様のプログラムですが http://aoki2.si.gunma-u.ac.jp/R/normaldist.html のものを使用しました。
> これによるとp値が0.00001ぐらいになりました。

>> (Webで拾ったフリーウェアでカイ2乗検定をすると,正規分布に従わないとなるのですが,青木様の「R」を使うと正規分布に従うとなるのですが,どういうことなのでしょうか?)

と,書いてありましたが,どっちも正規分布に従うという仮説は棄却されているではないですか。

p値が0.00001 と 1e-17 くらいとでは違いがあると考えているのなら,それは誤った考え方です。

> なお本当のサンプル数は300程度ありまして,そのうち10個前後が大きな絶対値をとり,その他のデータは0を中心とした山型のヒストグラムを示しています。
> 掲載のためデータを一部抜粋をしたためにかなり歪んでしまっていました。申し訳ありませんでした。

そいういうことで,前に書いたようなことを考えたわけではありません。
単一の正規分布で,あのような異常値がでるわけありませんから。

> 例のデータが歪んでいるための誤解かと思いますが,たとえば(X,Y)=(0.01,-0.01)というデータは正常値に入ります。一方で(3,−3)というデータは異常値です。

そう言うことではないけれど,y/x を求めてある程度の許容範囲でx や y の絶対値が小さい場合はy/x を強制的に0にすればいいでしょう。

> 以上の補足説明を踏まえてまたお教えいただけますと幸いです。

前の発言+上に述べたとおり。

     [このページのトップへ]


6160. Re^6: 生物学的データの群分けについて(その2) Kentucky  2005/03/08 (火) 02:59
何度も申し訳ありません。
青木様のご指摘の件ですが,元データを使ってもう一度試してみました。

サンプル数246に対し,Xの値のヒストグラムが,以下のようになりました。
階級数13,階級最小値-4.79,階級幅0.53,精度0.001
1
0
0
0
0
0
1
0
143
92
5
4
0

stss_excelではカイ2乗値が4944になり,正規分布に従うという仮説は棄却されるのに対して,青木様の示されたRでは
chi-sq d.f. P value
6.789905e+01 3.000000e+00 1.202376e-14
となりました。

私のRの使用法が誤っているのかもしれません。そうとしたらどうかお許しください。

いずれにせよ,青木様のご指摘の「混合分布」はそのとおりです。
そもそものデータに実験上の外れ値および異常値が含まれているのですから。これらを統計的に抽出したかったのです。



>そう言うことではないけれど,y/x を求めてある程度の許容範囲でx や y の絶対値が小さい場合はy/x を強制的に0にすればいいでしょう。

この実験ではy/xはあくまで外れ値を探す補助手段を意味します。
原点周辺に位置する「正常群」とそこから異なって分布する「異常群(外れ値は含まない)」を分けるのに,x,yを同時に用いた多変量分析を用いるべきなのか,x,yそれぞれに対して「正常域」を設定してそこから外れるものを「異常群」とするべきなのか。
もし後者なら正常域の設定にグラブス・スミルノフ棄却検定を用いてもよいのか,あるいはx,yの絶対値に対して青木様に以前示していただいた方法を用いるべきなのか。
だからxやyの絶対値が「どのくらい小さい」としたときに正常とするべきかの検定を行いたかったのです。
これが私の質問の趣意でした。

     [このページのトップへ]


6163. Re^7: 生物学的データの群分けについて(その2) 青木繁伸  2005/03/08 (火) 11:31
> stss_excelではカイ2乗値が4944になり,正規分布に従うという仮説は棄却されるのに対して

stss_excel はカイ二乗値しか提示しないんですね?
自由度はいくつですか(階級数が13で,平均値と標準偏差をデータから計算しているなら,自由度は13-1-2=10 になるのではないかと思いますが)。
自由度が分かれば P 値も計算できますよ。
Excel ならば,セルに =chidist(4944, 自由度を表す数値)と入力すればいいわけです。
いずれにせよ,相当小さい値になることは間違いない。

一方,

> 青木様の示されたRでは
> chi-sq d.f. P value
> 6.789905e+01 3.000000e+00 1.202376e-14
> となりました。

P 値は 1.202376e-14 ですね。この数値の読み方分かりますか。
1.202376 × (10 の -14 乗)です。これも非常に小さい値ですね。

検定における P 値の解釈はご存じですね。
有 意水準 5% で検定するとき,P 値が 0.05 より小さいと有意,すなわち,帰無仮説を棄却する。この検定の場合には帰無仮説は「正規分布に従う」ですから,stss_excel も,私の書いた R のプログラムも,結果は同じです。すなわちP 値は 0.05 より小さいから,「帰無仮説を棄却する。すなわち正規分布に従わない」

> 私のRの使用法が誤っているのかもしれません。

P 値の解釈,あるいは,コンピュータの出力する数値の解釈が誤っているのでしょうか。

つ いでですから,示された検定結果を見ると,一番最初の階級に該当するのが1つで,その後の5つの階級には該当がないというような階級設定で正規分布に従う かどうかの検定をそのまま行うのはどう見ても不都合です。明らかな外れ値一つのために,検定結果は歪められている可能性が大きいですね。

R のプログラムを掲載しているページからリンクしている
適合度の検定
http://aoki2.si.gunma-u.ac.jp/lecture/GoodnessOfFitness/normaldist.html
は,お読みになりましたでしょうか。

私 の R のプログラムの出力で,自由度 df は 3 になっておりますが,もとのデータがないので何とも言えませんが,少なくともデータの最小値(外れ値)を含む階級をそれより上の階級と併合して,適合度の 検定を行う前提条件に合うように階級数の調整をした結果だと思います。そして,このような場合には,カテゴリーの併合をしない(stss_excelの) 検定結果は,誤った結果なのです。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 033 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る