★ 算術平均や中央値よりも優れた代表値 ★

 367 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/11 (日) 16:19
  368 Re: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/11 (日) 18:01
   373 Re^2: 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/12 (月) 14:59
    376 Re^3: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 15:36
     378 Re^4: 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/12 (月) 16:57
      379 Re^5: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 17:32
       380 Re^6: 算術平均や中央値よりも優れた代表値     2003/05/13 (火) 00:22
   370 Re^2: 算術平均や中央値よりも優れた代表値     2003/05/12 (月) 05:10
    372 Re^3: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 14:47
   369 Re^2: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/11 (日) 18:01


367. 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/11 (日) 16:19
はじめまして。加藤と申します。

代表値の種類は,算術平均や中央値などが有名ですが,もう少し優れた代表値は無いのでしょうか?

というのは,算術平均はロバスト性に欠けるのでノイズが多く含まれうる実際のデータには適用しにくいですし,一方で,中央値はロバストですが,
・サンプル数が少ない時は"振れ"が大きすぎる
例: {1,3,5,100,200} の中央値は5だが,これに300,400のデータが加わって{1,3,5,100,200,300,400}となると,中央値は途端に100になる。

・代表値は値は,データの値しか取れない。
例: {1,2,100} の中央値は2だが,心理的にはもうすこし値(5とか)でもいいのでは・・・と感じる。

という問題があり,統計的にも古典的すぎる感が否めません。
多少複雑な計算でも,一般に知られていないアルゴリズムでもいいので,もう少しクレバーな指数は無いものでしょうか?

     [このページのトップへ]


368. Re: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/11 (日) 18:01
> 代表値の種類は,算術平均や中央値などが有名ですが,もう少し優れた代表値は無いのでしょうか?

何をもって優れていると判断するか,その基準をまず明確にしておく必要があるでしょうね。

> というのは,算術平均はロバスト性に欠けるのでノイズが多く含まれうる実際のデータには適用しにくいですし,

ちょっと,おっしゃっている意味が私には分かりません。

> 一方で,中央値はロバストですが,
> ・サンプル数が少ない時は"振れ"が大きすぎる
> 例: {1,3,5,100,200} の中央値は5だが,これに300,400のデータが加わって{1,3,5,100,200,300,400}となると,中央値は途端に100になる。

それは,中央値の問題ではなくて,そのようなデータが出てくるシステムの問題でしょう。
そもそも,そんなに少ない標本から代表値を求めようとするのが???ですが。

     [このページのトップへ]


373. Re^2: 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/12 (月) 14:59
> 何をもって優れていると判断するか,その基準をまず明確にしておく必要があるでしょうね。

outlierが存在しても大きく左右されなくて(少し引っ張られる程度ならよい),分布モデルを仮定せずにどんな分布にも適用できて,かつ全体の値を反映する指標を求めています。

> ちょっと,おっしゃっている意味が私には分かりません。
現実のデータは外れ値が含まれうるのですが,毎回手作業で外れ値を検索する訳にはいかないので,外れ値に大きく左右される算術平均は使いにくいんです。

>
> それは,中央値の問題ではなくて,そのようなデータが出てくるシステムの問題でしょう。
> そもそも,そんなに少ない標本から代表値を求めようとするのが???ですが。
すみません,データの種類や標本の少なさは仕方がないんです。
よろしくお願いいたします。

     [このページのトップへ]


376. Re^3: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 15:36
> すみません,データの種類や標本の少なさは仕方がないんです。
> よろしくお願いいたします。

で,トリム平均というのでもだめなんですか。

     [このページのトップへ]


378. Re^4: 算術平均や中央値よりも優れた代表値  加藤真一  2003/05/12 (月) 16:57
> > すみません,データの種類や標本の少なさは仕方がないんです。
> > よろしくお願いいたします。
>
> で,トリム平均というのでもだめなんですか。

トリム平均悪くないのですが,両端何%を除去するかという問題があります。
例えば,1%をパラメータに設定したとしても,外れ値が除去しきれない可能性も否定できない。
じゃあ5%はどうか10%はどうかということになりますが,毎回手作業で探索してても仕方ないんじゃないかと思います。

     [このページのトップへ]


379. Re^5: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 17:32
> トリム平均悪くないのですが,両端何%を除去するかという問題があります。
> 例えば,1%をパラメータに設定したとしても,外れ値が除去しきれない可能性も否定できない。
> じゃあ5%はどうか10%はどうかということになりますが,毎回手作業で探索してても仕方ないんじゃないかと思います。

外れ値が5%も10%もあるというのは,もはや外れ値ではないでしょう。

お望みのような代表値はいってみれば「あなたの望むもの」ですから,毎回目視で手作業でやるのが一番いいのでしょうね。

     [このページのトップへ]


380. Re^6: 算術平均や中央値よりも優れた代表値    2003/05/13 (火) 00:22
> > じゃあ5%はどうか10%はどうかということになりますが,毎回手作業で探索してても仕方ないんじゃないかと思います。

それぞれケースはいくつぐらいなのでしょうか?
分布をみてみて,中央値,平均値と並んでいるとして
> お望みのような代表値
は間にくるのでしょうか?中央値と平均値の外に来るのでしょうか?

調和平均・幾何平均・最頻値と
> お望みのような代表値
の大小関係がいかがなのでしょうか?

ともかく,青木先生がおっしゃるように代表値の選び方にも理論が必要だと思います。

ともかく,サンプル数が少ないのであれば,どのような代表値であれ,信頼区間と一緒に解釈しなければ,危ないと思うのですが,いかがでしょうか?

その代表値をなににお使いになりたいのか非常に気になりますが,あとは無理に代表値をもとめず,はこひげ図をたくさんつくるとか?はいかがでしょうか?

     [このページのトップへ]


370. Re^2: 算術平均や中央値よりも優れた代表値    2003/05/12 (月) 05:10
> そもそも,そんなに少ない標本から代表値を求めようとするのが???

青木先生のおっしゃるとおりでブートストラップで信頼区間をもとめれば,どの代表値でも非常に信頼区間が広くお互いかなり重なるのではないでしょうか?

ところで,トリム中央値はトリムの仕方によりますが,対称にトリムすると中央値と同じ値が帰るのではないでしょうか?->青木先生

     [このページのトップへ]


372. Re^3: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/12 (月) 14:47
> ところで,トリム中央値はトリムの仕方によりますが,対称にトリムすると中央値と同じ値が帰るのではないでしょうか?->青木先生

異常値とか極値を考えるとき,左右対象にトリムしないというやりかたもあるのかなと思いましたのです。(^_^)

     [このページのトップへ]


369. Re^2: 算術平均や中央値よりも優れた代表値  青木繁伸  2003/05/11 (日) 18:01
> 例: {1,2,100} の中央値は2だが,心理的にはもうすこし値(5とか)でもいいのでは

母集団がどんな分布になっているか,おっしゃっているのは右に裾の長い分布でしょうか。
理論的根拠がある方がいいのですが,そのような分布の一つに対数正規分布があり,その分布の場合には幾何平均がいいという理論的背景はあります。

> 多少複雑な計算でも,一般に知られていないアルゴリズムでもいいので,もう少しクレバーな指数

トリム平均とか。
(それを拡張して,トリム幾何平均とか,いささか理論的には意味がないがトリム中央値とか考えてもいいのかもしれないが)

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 024 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る