★ データ数の違う場合の平均値の求め方 ★

34. データ数の違う場合の平均値の求め方 ひろ 2003/05/28 (水) 14:18
└37. Re: データ数の違う場合の平均値の求め方 青木繁伸 2003/05/28 (水) 14:33
 └45. Re^2: データ数の違う場合の平均値の求め方 青木繁伸 2003/05/28 (水) 23:13
  └47. Re^3: データ数の違う場合の平均値の求め方 ひろ 2003/05/29 (木) 13:20


34. データ数の違う場合の平均値の求め方 ひろ  2003/05/28 (水) 14:18
本当に初歩的な質問で申し訳ないのですが,教えてください。

例えば以下のようなデータのときに,
  データ   携帯料金   メール料金   総費用
   1      9000           2000         11000
      2           4000           3000          7000
      3          無回答     1000         集計不可
      4           5000           無回答       集計不可
携帯料金,メール料金,総費用それぞれの平均値を求めたいときは,

1.携帯料金はデータ1,2,4の平均,メール料金はデータ1,2,3の平均,総費用はデータ1,2の平均
2.携帯料金,メール料金,総費用ともにデータ1,2の平均

のどちらで求めるのでしょうか?
何卒よろしくお願い致します。

     [このページのトップへ]


37. Re: データ数の違う場合の平均値の求め方 青木繁伸  2003/05/28 (水) 14:33
欠損値の扱いの問題ですから,あなた次第(集計方針次第)です。

「全データがそろっていないケースは信頼できない」などの理由なら,どの項目の平均値を求める場合にも,使えるデータは1,2のみ。
「項目によって答えがない場合にも,他の項目のデータはあるので,データを有効利用しよう」などの理由なら,無回答や集計不能以外のデータは全部有効に使う。

     [このページのトップへ]


45. Re^2: データ数の違う場合の平均値の求め方 青木繁伸  2003/05/28 (水) 23:13
補足

多変量解析を行うとき,特に,相関係数行列を計算するときには欠損値の扱いには慎重を期す必要があります。

相関係数を計算するときの変数セットにおいて,どれか一つでも欠損値のあるケースを除外するのは「リストワイズ除去」,二変数の組単位で欠損値を除外するのは「ペアワイズ除去」(いずれも,SPSS の用語。しかも,かなり前に使われていたものであり,現在はどうなのかしらない)ということである。後者では,結果として,相関係数ごとにその根拠となるデータの組数が異なる可能性がある。前者では,当然ながら全て同じ。
前者では相関係数行列は非負定値行列であるが,後者はその保証がない。非負定値行列でないと,分析に必要な計算中において,いろいろ問題が生じることがある。しかし,欠損値が頻出する場合に,前者もデータの母集団代表性において問題がある。

     [このページのトップへ]


47. Re^3: データ数の違う場合の平均値の求め方 ひろ  2003/05/29 (木) 13:20
ご回答ありがとうございました。
また補足までしていただき,大変参考になりました。
これからは出来るだけ自分で解決できるよう取り組んでいきます。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 025 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る