No.05191 マハラノビス距離による帰属率導出の可否  【suzuki】 2007/12/27(Thu) 22:40

http://florida.mes.titech.ac.jp/Maha.pdf
「帰 属率導出:データが正規分布に従うと仮定した場合,マハラノビス二乗距離は自由度2のχ二乗分布に従うため,マハラノビス距離から対象の判別群に分類され る確率(=帰属率)が定量的に導出可能である.」と述べられています。以下の例(データの正規性の検定と結論)は適切でしょうか?

[例]
帰無仮説:「分布は正規分布である」
対立仮説:「分布は正規分布ではない」
Shapiro-Wilk normality test
data: dat
W = 0.9374, p-value = 0.01903
有意水準5%では帰無仮説は棄却される。すなわち,「母分布は正規分布ではない」。
データが正規分布に従わないので,マハラノビス距離から基準群への帰属確率は計算できない。

[Rコマンド]
dat <- matrix(c( # データ行列(4 変数,11 ケース)
1, 2, 5, 3,
7, 4, 8, 5,
5, 4, 7, 1,
2, 3, 5, 4,
9, 5, 4, 7,
2, 1, 4, 2,
5, 4, 7, 4,
2, 3, 5, 7,
4, 1, 8, 2,
3, 2, 5, 8,
3, 5, 4, 8
), ncol=4, byrow=TRUE)
shapiro.test(dat)
ks.test(dat, "pnorm", mean=mean(dat), sd=sqrt(var(dat)))

[参考文献]
# マハラノビスの距離による基準群への帰属確率 http://aoki2.si.gunma-u.ac.jp/R/mahalanobis.html
# 正規性の検定 http://cse.naro.affrc.go.jp/takezawa/r-tips/r/63.html
# 適合度の検定−−正規分布への適合度の検定 http://aoki2.si.gunma-u.ac.jp/lecture/GoodnessOfFitness/normaldist.html
# 「R」でのShapiro-Wilkの検定について http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc038/00019.html

No.05193 Re: マハラノビス距離による帰属率導出の可否  【青木繁伸】 2007/12/27(Thu) 23:04

dat は,4変数データですよね
なぜ,shapiro.test(dat) としてひとまとめで正規性の検定をするんですか?
ひとまとめにしても良い状況もあるでしょうが,そうなら,その事情を明らかにすべきでしょう。

正規性の検定は,データ数が少ないと帰無仮説は採択されがち。
データ数が少ないにもかかわらず帰無仮説が棄却されるというのは,外れ値などが入っているか,異質なデータが混在している(まさに今回のように,異なる変数がまとめて扱われている)のではないでしょうか。

質問したかったことは「多変量正規分布が成り立たない場合にはマハラノビスの汎距離は有効に機能しない」ということでしょう?
それは,イエスでもありノーでもある。
イエスといったら,イエスでない場合のリスクを背負い込む
ノーといったら,その先何にもできない

No.05194 Re: マハラノビス距離による帰属率導出の可否  【青木繁伸】 2007/12/27(Thu) 23:10

なお,本題とは異なるが,
ks.test(dat, "pnorm", mean=mean(dat), sd=sqrt(var(dat)))
はエラーになる
その,原因は
sqrt(var(dat))
にあり。
> var(dat)
[,1] [,2] [,3] [,4]
[1,] 5.8909091 2.1090909 1.1636364 0.8636364
[2,] 2.1090909 2.0909091 -0.1636364 1.6363636
[3,] 1.1636364 -0.1636364 2.4545455 -1.8454545
[4,] 0.8636364 1.6363636 -1.8454545 6.4545455
これじゃ,そもそも変だし,その sd を取るのもおかしいがマイナスが出てくるというので完全にアウト

sqrt(var(dat)) を sd(dat) とすればよいのかというのもやってみればすぐ分かるが
> sd(dat)
[1] 2.427120 1.445998 1.566699 2.540580


それにしても,ks.test の 第一引数がマトリックスで,第二引数が "pnorm" のときの,補助引数 sd= にベクトルが与えられたときの挙動がよく分からない。今は,プログラムを読む気力もないので,またいつか。

No.05238 Re: マハラノビス距離による帰属率導出の可否  【suzuki】 2008/01/02(Wed) 21:26

> 質問したかったことは「多変量正規分布が成り立たない場合にはマハラノビスの汎距離は有効に機能しない」ということでしょう?

はい。多変量正規分布に従うか否かの検定は不要でしょうか?この検定はRで実行可能でしょうか?

[参考文献]
# SPSS マクロ 正規分布・多変量正規分布の検定 http://www.ec.kagawa-u.ac.jp/~hori/spss/tokidoki3.html#39
# D'Agostino-Pearson検定について http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc037/09532.html

No.05239 Re: マハラノビス距離による帰属率導出の可否  【青木繁伸】 2008/01/02(Wed) 21:31

> 多変量正規分布に従うか否かの検定は不要でしょうか?

5193の後半

> この検定はRで実行可能でしょうか?

D'Agostino-Pearson検定のほかにもいろいろあります

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る