「統計学関連なんでもあり」の過去ログ--- 041

No.05851　分布の適合　　【クズネツク】　2008/02/15(Fri) 11:15

御教示お願いします。

標本によるガンマ分布と理論的なガンマ分布がコルモゴロフスミルノフ検定で一致したのですが，このとき標本分布は正規分布になるということができるのでしょうか？
よろしくお願い致します。

No.05901　Re: 分布の適合　　【青木繁伸】　2008/02/18(Mon) 15:37

回答がないのは，質問がはっきりしないということもあるのでは？
[標本によるガンマ分布]と言っていながら[標本分布は正規分布になる]ということはどういう事でしょう。

No.05902　Re: 分布の適合　　【クズネツク】　2008/02/18(Mon) 16:15

申し訳ありません。もう一度質問させてください。

ある基準事象群で標本で算出したマハラノビス距離の分布がガンマ分布をなすかどうかの検定をコルモゴロフスミルノフ検定で行いました。その結果，適合すると判定されました。その時，その基準事象群は正規分布をなす母集団の中からとりだしたということができるのでしょうか？

よろしくお願いいたします。

No.05903　Re: 分布の適合　　【青木繁伸】　2008/02/18(Mon) 16:27

マハラノビスの二乗距離はカイ二乗分布に従います

> マハラノビス距離の分布がガンマ分布をなすかどうかの検定をコルモゴロフスミルノフ検定で行いました。その結果，適合すると判定されました。

適合度の検定の帰無仮説は「○○分布に従う」ということです。しかしというか，そしてというか，帰無仮説が採択されても結果は，「○○分布に従わないとはいえない」です。

> 基準事象群は正規分布をなす母集団の中からとりだしたということができるのでしょうか

マハラノビス距離がどういう分布に従おうが，それと母集団が正規分布に従うのとは何の関係もないでしょう？

No.05905　Re: 分布の適合　　【青木繁伸】　2008/02/18(Mon) 17:06

> マハラノビス距離がどういう分布に従おうが，それと母集団が正規分布に従うのとは何の関係もないでしょう？

と思ったんだけど，やはり，マハラノビス距離を計算するデータは少なくとも多変量正規分布でないとマハラノビスの二乗距離はカイ二乗分布に従わないようですね。
# reqire   http://aoki2.si.gunma-u.ac.jp/R/mahalanobis.html
sim <- function(p, n=10000, func=rnorm)
{
	dat <- data.frame(matrix(func(n*p), n, p))
	x <- data.frame(matrix(func(n*p), n, p))
	d2 <- Mahalanobis(dat, x)$d2
	max.d2 <- 20 # max(d2)
	hist(d2, freq=FALSE, main=paste("Mahalanobis's squared distance, population:",
          deparse(substitute(func)), ", d.f. =", p),
          xlim=c(0, 20), ylim=c(0, 0.2), nclass=20)
	  x2 <- seq(0, max.d2, length=300)
	lines(x2, dchisq(x2, df=p), col="red")
}
set.seed(123)
layout(1:2)
par(cex=1.5)
sim(5, func=rnorm)
sim(5, func=runif)
上の図は，5変数の多変量正規分布についてのマハラノビスの二乗距離の分布。赤い曲線はカイ二乗分布（密度関数。自由度は5）。
下の図は，5変数の一様分布について。ヒストグラムと赤い曲線は，ずれている。

No.05906　Re: 分布の適合　　【クズネツク】　2008/02/18(Mon) 18:19

具体例を出して解答していただきありがとうございました。カイ二乗分布に従うことと多変量正規分に従うことが同等とわかりすっきりしました。御教示ありがとうございました。

No.05957　Re: 分布の適合　　【suzuki】　2008/02/26(Tue) 16:36

No. 5905の図でヒストグラムが赤い曲線に従うか否かを検定する方法として以下のコマンドは適切でしょうか？
set.seed(123); n = 10000; p = 5
func = rnorm # 上の図（正規分布）
func = runif # 下の図（一様分布）
dat = matrix(func(n*p), n, p)
d2 = Mahalanobis(dat, dat)$d2
ks.test(d2, "pchisq", df = p)

No.05962　Re: 分布の適合　　【青木繁伸】　2008/02/26(Tue) 21:52

> 以下のコマンドは適切でしょうか？

不適切ではないかとお思いの場合，その根拠とか理由は？

No.05966　Re: 分布の適合　　【suzuki】　2008/02/26(Tue) 23:16

func = rnorm の場合に，nが大きくなるほど，p-valueが小さくなった（n = 100, 1000 10000の順にp-value = 0.9862, 0.7363, 0.5013）ので，不思議に思った次第です。

No.05967　Re: 分布の適合　　【青木繁伸】　2008/02/26(Tue) 23:25

> nが大きくなるほど，p-valueが小さくなった（n = 100, 1000 10000の順にp-value = 0.9862, 0.7363, 0.5013）ので，不思議に思った次第です。

不思議でも何でもないでしょう。
検定では，対象とする統計事象を表す検定統計量の大きさと，サンプルサイズの大きさで有意確率が小さくなるのは，ごくごくごく！当たり前のことです。。。どんな検定でも同じ（検定統計量の算出公式を見れば自明）。

例1 サンプルサイズが10ずつ，対照群での陽性率が40％，処置群での陽性率が60％
例2 サンプルサイズが1000ずつ，対照群での陽性率が40％，処置群での陽性率が60％
（当たり前な注釈：例1も例2も，対照群，処置群での陽性率は同じ！！）
では，検定の実例を
> prop.test(c(4,6), c(10, 10))
2-sample test for equality of proportions with continuity correction

データ:  c(4, 6) out of c(10, 10) 
カイ二乗値 = 0.2, 自由度 = 1, P値 = 0.6547 # ★★★ 有意じゃないよ！！！
対立仮説: 等しくない 
95 パーセント信頼区間:  -0.7294066  0.3294066 
標本推定値: 
割合1 割合2 
  0.4   0.6 # ★★★ ここに注意

> prop.test(c(400,600), c(1000, 1000))
2-sample test for equality of proportions with continuity correction

データ:  c(400, 600) out of c(1000, 1000) 
カイ二乗値 = 79.202, 自由度 = 1, P値 < 2.2e-16 # ★★★ 有意だよ！！！
対立仮説: 等しくない 
95 パーセント信頼区間:  -0.2439407 -0.1560593 
標本推定値: 
割合1 割合2 
  0.4   0.6 # ★★★ ここに注意　（前と同じでしょ！　　なんで，いまさら。。。。）

No.05971　Re: 分布の適合　　【suzuki】　2008/02/27(Wed) 07:17

シミュレーションしてみました。func = rnormの場合，nが大きくなると，p-valueは大きくなると考えたのですが，そうなりません（左図）。func = runifの場合，nが大きくなると，p-valueは小さくなります（右図）。

No.05973　Re: 分布の適合　　【青木繁伸】　2008/02/27(Wed) 14:11

> p-valueは大きくなると考えたのですが，そうなりません

適合度の検定で，n が大きくなると，どんな小さな分布関数の差でも検出してしまうようになるので，p-value は小さくなります。すなわち，「データは○○分布に従う」という「帰無仮説」は棄却されやすくなります。（とはいっても，もしそのデータの母分布が○○分布ならば，サンプルサイズが大きくなると，分布に従っていないように見えるデータの割合も小さくはなるので，帰無仮説が実際に棄却されるようなことは起こらないだろうが）。

「母分布がカイ二乗分布なのだから，nが大きくなるとそれが支持されやすくなる」と考えるのは，大きな間違いです。

No.05975　Re: 分布の適合　　【青木繁伸】　2008/02/27(Wed) 15:24

実際にシミュレーションしてみると，nの効果が現れるのと，データが真の分布に近づくのが打ち消しあって，P値が小さくなるというのはうまく観察されないようですね。
それで，上の陳述は少々修正が必要
「もし，母分布と標本分布がほんのわずかでも違うならば，サンプルサイズが大きくなるとその違いが検出されるようになる」
以下のようなシミュレーション例
自由度が5.1のカイ二乗乱数を自由度が5のカイ二乗乱数かどうか適合度の検定を行う。サンプルサイズは10, 100, 1000, 10000, 100000
> sapply(1:5, function(i) ks.test(rchisq(10^i, df=5.1), "pchisq", df=5)$p.value)
[1] 0.858612694 0.720542877 0.458731454 0.004911611 0.000000000
>
> sapply(1:5, function(i) ks.test(rchisq(10^i, df=5.1), "pchisq", df=5)$p.value)
[1] 0.74105159 0.79995140 0.07426186 0.01360583 0.00000000
この程度の分布の違いでも，サンプルサイズが100000にもなれば検出できる。

No.05977　Re: 分布の適合　　【suzuki】　2008/02/28(Thu) 03:02

ありがとうございます。大変勉強になります。ところで，p変数のデータで「マハラノビス二乗距離は自由度pのカイ二乗分布に従う」と「マハラノビス二乗距離は自由度p-1のカイ二乗分布に従う」の何れが正しいのでしょうか？

http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc2.html
判別方法としてはこの他に，（ 2 ）式の dj2 が自由度 p の χ2 分布に従うことを利用する方法がある。

http://ieeexplore.ieee.org/iel5/7369/19994/00924723.pdf
If the population under consideration may be considered multivariate normal, the Mahalanobis distance will follow a chi-square distribution with degrees of fieedom equal to the number of variables or classes (p).

http://linkinghub.elsevier.com/retrieve/pii/S0375960103015226
The Mahalanobis distance D2k approximately follows a chi-square distribution with k degrees of freedom under the null hypothesis.
Before we calculated the Mahalanobis distance D2k, we applied principal component analysis to reduce dimension k. The cumulative contribution ratio of the reduced dimension was larger than 95%.

http://www.jennessent.com/arcview/mahalanobis_description.htm
When the predictor variables are normally distributed, the Mahalanobis distances do follow the Chi-square distribution with n-1 degrees of freedom (where n = # of habitat variables; 2 in the example above).

http://www.for.gov.bc.ca/hre/lach/intro.htm
If the assumption of multivariate normality is satisfied, then the Mahalanobis distances can be converted to a chi-square probability distribution with n-1 degrees of freedom, where n is the number of variables

http://www.jstor.org/view/0022541x/ap070224/07a00110/0
Assuming multivariate normality, Mahalanobis distances are approximately distributed as Chi-square with n-1 degrees of freedom, where n equals the number of habitat characters.

No.05978　Re: 分布の適合　　【青木繁伸】　2008/02/28(Thu) 10:53

変数が1個の場合を考えてみましょう！

1変数のとき，その変数の平均値と分散を μ，σ2 として，データ x からのマハラノビスの平方距離 d2 を考えてください。

d2 = (x-μ) (σ2)^(-1) (x-μ)
より，
d2 = (x-μ)^2/σ2
これは標準得点（Z値）の二乗ですね
標準正規分布に従う1変数を二乗したものは？
そう。自由度1のカイ二乗分布ですね。
よって，p変数におけるマハラノビスの平方距離は，自由度pのカイ二乗分布に従います。

5977 で挙げられたものの内，自由度がp-1と書いてあるものは，「じゃあ，1変数変数のときは，自由度0のカイ二乗分布に従うんかい？」と反論してみましょう。

（判別分析でも，マハラノビスの平方距離でも，1変数でも何のおかしな所もない）

No.05979　Re: 分布の適合　　【青木繁伸】　2008/02/28(Thu) 11:07

No. 5905 の上の図の赤線は自由度pのカイ二乗分布
自由度をp-1として描いたら（青線）以下のようになる
明らかにおかしい

No.05994　Re: 分布の適合　　【suzuki】　2008/02/29(Fri) 12:03

丁寧に説明していただきありがとうございます。次のように考えればよろしいでしょうか？Kolmogorov- Smirnov検定により，「マハラノビスの二乗距離がカイ二乗分布に従う」という帰無仮説が採択されたら，マハラノビスの二乗距離から対象の判別群に分類される確率(＝帰属率)を導出可能である。しかし，帰無仮説が棄却されたら，帰属率の導出はあきらめる（データが多変量正規分布に従うという仮定が間違っていた）。

No.05995　Re: 分布の適合　　【青木繁伸】　2008/02/29(Fri) 12:10

> Kolmogorov-Smirnov検定により，「マハラノビスの二乗距離がカイ二乗分布に従う」という帰無仮説が採択されたら，マハラノビスの二乗距離から対象の判別群に分類される確率(＝帰属率)を導出可能である。しかし，帰無仮説が棄却されたら，帰属率の導出はあきらめる（データが多変量正規分布に従うという仮定が間違っていた）。

まあ，そういうことだと思います。
そのほかに，各群の分散共分散行列が等しいという条件も必要でしょうけど。