No.20700 統計データの異常の排除について  【すいてき】 2013/12/27(Fri) 13:50

初めまして。
あまり統計学に詳しくないので教えていただきたいことがあります。

得られた統計データの中で異常値を排除したいと思っているのですが,
今考えている方法があっているのかどうかに自信がありません。

その方法とは,標準偏差と信頼区間を用いて,
下限値:平均値-K×σ
上限値:平均値+K×σ
で異常値を排除することを考えています。

この方法で下の4つのデータの中で,異常値を算出します。

(例)
データ4つ(人数)
182
184
227
268(できれば排除したいデータ)

信頼区間を80%(K=1.28)で計算すると(信頼区間を90%,95%とすると268が入ってしまいます。)
数値の範囲は,170〜261となり,268は異常値として排除するとしています。
そもそもデータ数が少ないので,こういう方法をとるべきではないのでしょうか?
データ数が少なくても,異常値と判断できるような方法を教えていただければと思います。

No.20701 Re: 統計データの異常の排除について  【青木繁伸】 2013/12/27(Fri) 13:59

その方法は,あまりよいとは思いません。

スミルノフ・グラブス検定
http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs.html
というのがありますが

特に,このようにサンプルサイズが小さく,その母分布も定かでないものを,数値的計算だけで異常値の排除をするというのは無理があるでしょう。

特にあなたは「異常値」という言葉を使っているので,そのデータが異常であると考えられる何らかの根拠が必要でしょう。そのような根拠なしに単に幾つ以上なら排除,望ましくないから排除,できれば排除したいというのはだめでしょう。

No.20702 Re: 統計データの異常の排除について  【すいてき】 2013/12/27(Fri) 14:14

すぐにご回答いただきありがとうございました。
とても参考になりました。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る