No.22916 回帰分析前の外れ値処理について  【石田】 2020/06/07(Sun) 14:54

自分からの距離と注視時間のように
時間と距離の間に明らかに相関性が見られるデータの回帰分析を行おうと考えています。

このような相関性のある2変量の場合,マハラノビス距離による外れ値処理が良いと思い,pythonで行わせようとしました。

距離は算出出来るのですが,外れ値とみなすしきい値は任意に決定してもよいのでしょうか?(例えばマハラノビス距離で四分位範囲を超えるものを外れ値とするなど)

高度な処理は理解と実装が追いつかず,シンプルな方法が有りましたらご教授頂けますと幸いです。

No.22917 Re: 回帰分析前の外れ値処理について  【青木繁伸】 2020/06/07(Sun) 21:01

所属確率が 95% とか
http://aoki2.si.gunma-u.ac.jp/R/mahalanobis.html

いずれにしても基準は絶対的なものではないので,何故その基準にしたのかが客観的に説明できればよいでしょう。

何通りか変えて分析してみて結果の妥当性を検討するとかもよいかな。

また,明らかに外れ値というのは除くとしても,ちょっとぐらい外れているのを除くのがいいかどうかという問題もあるとおもいます。

実際のデータに依存するので,一般論では論じきれないかもしれませんね。

No.22918 Re: 回帰分析前の外れ値処理について  【石田】 2020/06/11(Thu) 00:16

青木先生

外れ値を含む可能性が高い,幾つかのデータセットを自動的に外れ値処理をするコードを書こうと思ったのですが統計的知識が不十分なので自分が決定したしきい値が統計的におかしなことをしていないか不安でした。
95%で妥当な結果が得られるか実験してみます。
ご教授ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る