「統計学関連なんでもあり」の過去ログ--- 048

No.23111　パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/17(Tue) 16:07

これまで統計手法は決定樹に従って選択していたため，標本が非正規分布の場合，あまり考えずにノンパラメトリック検定を行っていました（変数変換で正規分布する場合は，変数変換後にパラメトリック検検定を行っていました）。しかし，中心極限定理によりますと，母集団がいかなる分布であっても，そこからサンプリングしたサンプルの平均値は正規分布に従うことになりますので，標本が非正規分布であっても変数変換せずにパラメトリック検定ができるのではないかと思いました。もし，この考えが正しければノンパラメトリック検定の手法は存在しないと思いますが，存在する以上，私の考えが間違っていると思います。基本的なことで申し訳ありませんが，中心極限定理があるにもかかわらず，標本が非正規分布の場合（変数変換は除く），なぜパラメトリック検定で行わないのかご教授いただけないでしょうか。
よろしくお願いいたします。

No.23113　Re: パラメトリック検定とノンパラメトリック検定について　　【aoki】　2021/08/17(Tue) 22:46

サンプルサイズが大きくなれば，正規近似可能ですが，比較的小さいサンプルサイズの場合に正規近似がどの程度成り立つかはある意味分からないじゃないですか？
なので，そのような場合には正規近似を仮定しないノンパラメトリック検定を行えば，「そのような場合には正規近似できないだろう」という批判を封じることができるということでしょう。

なお，例えば独立二標本の平均値の差の検定（t検定）とマン・ホイットニー検定（U検定）の検定効率を見てみると，U検定はt検定に比べて，検定効率は， 3/π≒95.5% ほどです。これは，わかりやすくいえば，パワーアナリシスで，U検定で有意となるのに必要なサンプルサイズがnのとき，t検定では0.955nで十分である。（同じことだが，t検定で有意となるのに必要なサンプルサイズがmのとき，U検定では1.05m必要ということ）検出力はt検定の方が高いですが...ほとんど差がないですね。色々な仮定（例えば母分布が正規分布とか，二群の母分散が等しいとか）に基づいてt検定を行うより，何の仮定もなく行えるU検定の方が好ましい...と考える人も多いのでしょう。

論文投稿の際，査読者が「なぜ t 検定を行わなかったのか」とクレームをつけるよりは，「なぜ t 検定を行ったのか」というクレームをつける場合が多いような気がします。

なお，標本分布が正規分布に従わない場合に変数変換してから検定を行うというのも，実際の場面ではあまり行われないように思います（つまり，母分布が「理論的にある特定の分布に従い，正規分布には従わない」ということでないかぎり，恣意的な（行き当たりばったりな）変数変換をすれば，それはそれで議論を呼ぶと言うことでしょう）。いうまでもなく，ノンパラメトリック検定では，元の変数を線形変換（y = ax + b など）しても結果は変わりません（つまり，蛇足ですが，変数変換する必要はないということです）。

No.23114　Re: パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/18(Wed) 22:47

青木先生

ご回答いただきありがとうございました。
標本平均の分布は中心極限定理により正規分布することがわかっていますので，サンプルサイズが小さい場合，正規近似しなくてもn-1のt分布表で代用できると思いますが，いかがでしょうか？

No.23115　Re: パラメトリック検定とノンパラメトリック検定について　　【aoki】　2021/08/19(Thu) 13:27

> 標本平均の分布は中心極限定理により正規分布することがわかっていますので，サンプルサイズが小さい場合，正規近似しなくてもn-1のt分布表で代用できると思います

言葉が足りなかったようですが，検定統計量を標準正規分布表で（標準正規分布で）評価するということではありません。

当然t検定を行うわけですが，t検定は
1. 母分布が正規分布する
2. 二群の母分散が等しい
ことを仮定しています。
「標本平均の分布は中心極限定理により正規分布する」ことは，1. とは違います。
2. については，Welch の方法が適用可能ですが全ての問題（ベーレンスフィッシャー問題）が解決されるわけではありません。

No.23116　Re: パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/19(Thu) 14:40

青木先生

基本的な質問に丁寧にご回答いただきありがとうございました。
t検定の前提が「母分布が正規分布する」であることを考えずに「標本平均の分布は中心極限定理により正規分布する」ことのみ考えておりました。母集団が非正規分布でサンプルサイズが大きい場合，正規分布で近似できますが，サンプルサイズが小さい場合，正規分布で近似できないし，t分布を使うことができない。よって，パラメトリック検定でしか検定できないことが理解できました。すっきりいたしました。
ご教授いただきありがとうございました。

No.23117　Re: パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/19(Thu) 16:08

青木先生

新たな疑問が生じました。
母集団が非正規分布，小標本，母標準偏差が未知の場合，正規分布で近似できませんし，t分布で代用できないことになります。このような場合，母平均の区間推定はできるのでしょうか？
たびたび，申し訳ございませんが，ご教授いただきたくお願い致します。

No.23118　Re: パラメトリック検定とノンパラメトリック検定について　　【aoki】　2021/08/19(Thu) 18:01

どれくらいのサンプルサイズなのかにもよりますが，ブートストラップ法によればできるでしょう。

No.23119　Re: パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/19(Thu) 18:13

青木先生

ご回答いただきありがとうございました。
ブートストラップ法について，よくわかりませんので勉強いたします。

No.23120　Re: パラメトリック検定とノンパラメトリック検定について　　【aoki】　2021/08/19(Thu) 18:36

たとえば，以下のようなもの。
（しかし，非正規母集団の母平均（や平均値）が妥当かどうか。中央値にしてもよいが，普通の median() では同値が多くなるのでホッジス・レーマン推定量(http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/HLe.html)を使うとよいかも）
> x = c(3,2,1,2,4,5,7,5)
> n = length(x)
> set.seed(12345)
> # replicate 回のリサンプリング
> replicate = 10000
> # リサンプルされたデータの平均値を格納するベクトル
> m = numeric(replicate)
> # リサンプル，平均値計算，格納
> for (i in 1: replicate) {
+ 	m[i] = mean(sample(x, replace=TRUE))
+ }
> # ヒストグラムを描いてみる
> hist(m)
> # ソートする
> s = sort(m)
> # 下から 2.5%, 上から 2.5% の位置にある値を出力
> s[c(replicate*0.025, replicate*0.975)]
[1] 2.375 5.000
> # ちなみに
> t.test(x)$conf.int
[1] 1.956695 5.293305
attr(,"conf.level")
[1] 0.95

No.23121　Re: パラメトリック検定とノンパラメトリック検定について　　【ビギナー】　2021/08/23(Mon) 09:12

青木先生

恥ずかしながら，ホッジス・レーマン推定量という文言は初めて知りました。
ホッジス・レーマン推定量につきましても勉強いたします。
ご親切に例を挙げて説明いただきありがとうございました。