No.02681 正規性の検定  【maru】 2007/02/09(Fri) 17:01

実験データの正規性を確かめたいのですが,Statcelを用いた検定(カイ二乗適合度検定になります)を行った場合,そ の検定から正規性があるとわかれば,パラメトリック検定をしてもいいのでしょうか?それとも,ヒストグラムや正規分布紙で確認したり,他の検定方法も確認 する必要もあるのでしょうか?ちなみにn=5とデータ数が少ないのですが,このようにデータ数が少ない場合でも大丈夫でしょうか?統計学についてはまった くの素人で,現在論文作成が滞っております。どうぞよろしくお願い致します。

No.02682 Re: 正規性の検定  【青木繁伸】 2007/02/09(Fri) 17:15

n=5 で,カイ二乗適合度検定で正規分布である・ないをいってもしようがないような気がします。というか,帰無仮説を棄却できないのではないでしょうか?せめて,コルモゴロフ・スミルノフ1標本検定とかの方がまだしも。

http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html
のようなことも参考になるやらならぬやら?

No.02686 Re: 正規性の検定  【maru】 2007/02/09(Fri) 18:39

ありがとうございます。そうするとn=5の場合で正規分布紙にプロットして確認するというのもあまり意味がないのでしょうか?

No.02687 Re: 正規性の検定  【青木繁伸】 2007/02/09(Fri) 19:12

実際にいくつかのデータをプロットして眺めてみればいかがでしょう?
正規分布かどうか判断できますか?
その判断が正しいという保証はありますか?

定評のある D'Agostino normality test(fBasics ライブラリ)ですが,R では,データ数が 20 以上でないと,検定してもくれない。

一様乱数20個がどの程度「正規分布でない」と言われるかシミュレーション
> sim <- function(func=rnorm, n=20, loop=100)
+ {
+ d <- matrix(func(n*loop), n)
+ sum(apply(d, 2, function(x) dagoTest(x)@test$p.value[1]) < 0.05)/loop
+ }
> sim(rnorm, n=20, loop=10000) # 正規乱数,20個,1万試行
[1] 0.0557 # 第一種の過誤(まずまず)
> sim(runif, n=20, loop=10000) # 一様乱数,20個,1万試行
[1] 0.1485 # 正規分布でないと言われるのが15%しかない!

No.02691 Re: 正規性の検定  【maru】 2007/02/09(Fri) 19:43

ありがとうございます。実際にやってみたいと思います。
正規分布かどうかの判断は統計の本を見ながら確認したいと思いますが,その判断が正しいかどうかは自信がありません。コルモゴロフ・スミルノフ1標本検定の方がいいでしょうか?
ちなみに正規分布でないと判断した場合,ノンパラメトリック検定しても大丈夫でしょうか?

No.02693 Re: 正規性の検定  【青木繁伸】 2007/02/09(Fri) 19:57

> コルモゴロフ・スミルノフ1標本検定の方がいいでしょうか

Statcel がどうやって 5 つのデータから正規性を検定しているのか知りませんが,コルモゴロフ・スミルノフ1標本検定だって,5 つのデータの正規性の検定は無理でしょうね。

> 正規分布でないと判断した場合,ノンパラメトリック検定しても大丈夫でしょうか

どうでしょうね。
ノンパラメトリック検定ですか?あなたは,パラメトリック検定と書きたかったんじゃないですか?

No.02694 Re: 正規性の検定  【maru】 2007/02/09(Fri) 20:14

正規性が確認でき,等分散であれば,パラメトリック検定を用いようと思っていましたが,正規性の検定ができないのであれば,ノンパラメトリック検定を使うことになると思っていました。もしかして,この考え自体が間違ってましたか?
それからn=5は統計解析自体に無理があるのでしょうか?

No.02696 Re: 正規性の検定  【青木繁伸】 2007/02/09(Fri) 20:46

2682 で示したリンクはご覧になりましたか?
数値データならば,そしてそれが明らかに順序尺度以下にしか過ぎないということでないなら,等分散を仮定しないt検定(ウェルチの方法)を使うのが良いのかも知れないということですが。
正規分布に従うかどうかということと同じくらい,二群の分散が等しいかどうかも見極めるのは難しいからです。

> n=5は統計解析自体に無理があるのでしょうか

検定によるわけです。正規性の検定は(手法によらず)かなり難しい(検定法によっては検定さえできないし,形式的にはできたとしても帰無仮説が棄却されることはほとんど無い)。

形式的に検定ができるというのと,そのような場合の検出力がどの程度であるかを見積もっておいた方がよいだろうということもあります。

いろいろ面倒なことがあり,考え方によって,どのような対処法をとるかの結論は変わるでしょう。色々な条件を考慮できるだけの情報収集とそれに基づく判断力を養う必要もあると思います。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る