★ 以下というデータがある場合の平均値 ★

522. 以下というデータがある場合の平均値 さくら 2003/08/20 (水) 13:52
├530. Re: 以下というデータがある場合の平均値 青木繁伸 2003/08/21 (木) 21:29
│└531. Re^2: 以下というデータがある場合の平均値 さくら 2003/08/21 (木) 22:55
│ └533. Re^3: 以下というデータがある場合の平均値 青木繁伸 2003/08/21 (木) 23:11
│  └534. Re^4: 以下というデータがある場合の平均値 青木繁伸 2003/08/21 (木) 23:41
│   └546. Re^5: 以下というデータがある場合の平均値 さくら 2003/08/23 (土) 21:10
│    ├550. Re^6: 以下というデータがある場合の平均値 さくら 2003/08/25 (月) 15:05
│    │└552. Re^7: 以下というデータがある場合の平均値 さくら 2003/08/25 (月) 15:46
│    │ └553. Re^8: 以下というデータがある場合の平均値 青木繁伸 2003/08/25 (月) 18:41
│    │  └554. Re^9: 以下というデータがある場合の平均値 さくら 2003/08/25 (月) 20:13
│    └547. Re^6: 以下というデータがある場合の平均値 青木繁伸 2003/08/23 (土) 21:58
└525. Re: 以下というデータがある場合の平均値 ひの 2003/08/21 (木) 01:24


522. 以下というデータがある場合の平均値 さくら  2003/08/20 (水) 13:52
5個のデータ(1,2,3,<2,<2)の平均を求める場合<2の値はどう扱ったらいいのでしょうか.

     [このページのトップへ]


530. Re: 以下というデータがある場合の平均値 青木繁伸  2003/08/21 (木) 21:29
> 5個のデータ(1,2,3,<2,<2)の平均を求める場合<2の値はどう扱ったらいいのでしょうか.

1. なぜ,「5個のデータ」なのか
2. <2 というのは,2未満ということですが,1よりは大きいのですか
3. 「平均」と「平均値」と「中央値」と「最頻値」の違いはご存じですか。
4. 「平均」は「平均値」と「中央値」と「最頻値」のどの意味ですか。
5. なぜ,それを選ぶ必要があるのですか。(たとえば,中央値ではなくて平均値を選ぶ理由ということです)

# 質問するときに,余計な情報をくだくだ述べる必要は無いが,必要な情報を提示しないで,「実はこういう事情なので」とあとで言われても困るんですね(書かれていないことまで推しはかれない)。スレッド番号の無駄な消費を避けましょう。

     [このページのトップへ]


531. Re^2: 以下というデータがある場合の平均値 さくら  2003/08/21 (木) 22:55
確かに情報不足でした.申し訳ありません.ご指摘のとおりになりますが,追加説明させてください.
検査筑粟ですが,検出限界が2です.筑粟はほぼ正規分布をします.デーた数は5とは限りません.ある群の検査値筑粟の時間経過に伴う推移を見るため平均値で表そうと思うのですが,検出限界以下の値を無視して,陽性検体のみの平均を使うのはおかしいし,どうしたらいいのかお聞きしたいのです.

     [このページのトップへ]


533. Re^3: 以下というデータがある場合の平均値 青木繁伸  2003/08/21 (木) 23:11
なぜ,検出限界が2であるにもかかわらず,1というデータがあるのですか。例を挙げるのも適切にしてください。

検出限界以下のデータがどれくらいの頻度で生じるのか?
平均値と中央値と最頻値の違い,および,平均値でなくてはならない理由について未回答ですね。

データが正規分布するというような明確なモデル設定ができるなら,打切りデータを含む平均値の推定とかいう方法があったと思いますが,私は覚えていません。
Biometrika か Biometrics には頻繁に出ていたテーマのような記憶があります。

     [このページのトップへ]


534. Re^4: 以下というデータがある場合の平均値 青木繁伸  2003/08/21 (木) 23:41
> なぜ,検出限界が2であるにもかかわらず,1というデータがあるのですか。例を挙げるのも適切にしてください。
>
> 検出限界以下のデータがどれくらいの頻度で生じるのか?

そうそう,これに関してはもう少し明らかにして欲しいことがありますよね。

例に示されたように(1は除くとして),
<2,2,3 なんていう3種類の測定値しかないのですか(正規分布すると行っているのでそうではないと思うが)。
聞きたいことはですね,測定値のとる値の範囲なんですよ。
最高値が3の場合と30の場合と,3000の場合における <2 の意味は当然変わってきますよね。
当然,最高値が3であっても2&#12316;3までの連続値をとり,なおかつ<2 の検出限界の出現率が90%であるときと1%であるときは,当然ながら扱いというか対処法はかわってくるでしょうね。

> 平均値と中央値と最頻値の違い,および,平均値でなくてはならない理由について未回答ですね。

これにこだわる理由はおわかりでしょうか??

     [このページのトップへ]


546. Re^5: 以下というデータがある場合の平均値 さくら  2003/08/23 (土) 21:10
ウイルスに感染しやっとリカバリーがすみました。

> > なぜ,検出限界が2であるにもかかわらず,1というデータがあるのですか。例を挙げるのも適切にしてください。
実に不適切な例でした。すみません。
> >
> > 検出限界以下のデータがどれくらいの頻度で生じるのか?
標本により異なりますが,数%から30%程度の頻度。
>
> そうそう,これに関してはもう少し明らかにして欲しいことがありますよね。測定値のとる値の範囲なんですよ。
最高値は通常15
>
> > 平均値と中央値と最頻値の違い,および,平均値でなくてはならない理由について未回答ですね。
いろいろ調べた結果,正規母集団からの打ち切り標本の場合,検出限界が2の場合は未満のデータは1とする,または無視して計算してよいと記載してありました。また,母数を推定する方法(最小尤推定量による方法)もありました。平均値と中央値と最頻値の違いについては,上記の方法で計算した平均値及び中央値と最頻値を実例について計算して,後程報告します(現在手元にデータがないので)。

平均値でなければならない理由はないのですが,この検査値を平均値以外で表したのをみたことがないので,平均値を求めることしか考えませんでした。

     [このページのトップへ]


550. Re^6: 以下というデータがある場合の平均値 さくら  2003/08/25 (月) 15:05

> いろいろ調べた結果,正規母集団からの打ち切り標本の場合,検出限界が2の場合は未満のデータは1とする,または無視して計算してよいと記載してありました。

すみません.重要な部分を読み間違いしていました.・・・と計算してあるのをよくみかけるが,正しくないでした.

> 平均値と中央値と最頻値の違いについては,上記の方法で計算した平均値及び中央値と最頻値を実例について計算して,後程報告します(現在手元にデータがないので)。

実例
初回観察時(T0)と3年後(T3)のデータの度数分布は以下のとおりです.なお,値は検体の希釈倍数(希釈は2倍階段希釈)のLog2で表示しますので整数値のみをとります.
階級     <2  2  3  4  5  6  7  8  9 10 11 
------------------------------------------
頻度(T0) 11 24 40 46 45 22  8 
頻度(T3) 38 44 57 37  3 12  0  1  1  0  1 

(つづきあり)

     [このページのトップへ]


552. Re^7: 以下というデータがある場合の平均値 さくら  2003/08/25 (月) 15:46
                T0     T3
---------------------------------------------
平均値(未満データ無視)   4.14        3.35
平均値(未満データ1とする)   3.96        2.89 
平均値(最尤推定量による)    3.99        2.91
中央値                        4           3
最頻値                        4           3
平均値(average)とはデータの和をデータ数で割ったのもので,正規分布する場合その分布の重心を表す.
中央値(median)とはデータを大きい順に並べた時中央に位置する値.
最頻値(mode)とは観測度数が最大になる値.

論文中に,陽性率..%(100%以下),平均値..と書いてあるのをよくみかけます(検出限界以下の値をどう扱ったか明記されているのを私はみたことがありません).また,時には陽性検体の平均値は・・・と書いてあるのもあります.中にはmean(renge)で表してあるのも小数ありました.
今回特別な計算方法があることを知りました.ただ,一般的に使われていないように思います.中央値(レンジ)で表すのが最も適切なのかなと思っています.
ところで,meanというのは中央値のことなのでしょうか?

     [このページのトップへ]


553. Re^8: 以下というデータがある場合の平均値 青木繁伸  2003/08/25 (月) 18:41
> 今回特別な計算方法があることを知りました.ただ,一般的に使われていないように思います.中央値(レンジ)で表すのが最も適切なのかなと思っています.

同値がたくさんあるときの中央値の推定については,
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/median.html
の,one more step 以下に書いてあります。
そこに書いてあることが妥当かどうか,あなたのケースに当てはまるかどうか検討してみるのもいいかもしれません。

> ところで,meanというのは中央値のことなのでしょうか?

いえ,統計学用語で「平均値」のことです。
よく使われる「平均」は「算術平均 arithmetic mean」といいます(幾何平均 geometric mean,調和平均 harmonic mean)。

average というも平均を表しますが,もう少し日常用語的で,統計学に置いては,平均値,中央値,最頻値などのニュアンスを総称した用語として使われることが多いです。統計パッケージで,平均値を表す用語で average を使っているものは,要注意かもしれません。Excel は統計パッケージではないですが(統計パッケージだと思っている人もいるかも) average を使っているので,問題有りグループに入りますね(^_^;)

     [このページのトップへ]


554. Re^9: 以下というデータがある場合の平均値 さくら  2003/08/25 (月) 20:13
最後までつきあっていただき感謝しております。今まで,なんとなく疑問に思っていたことに答えを出せました。今までの習慣(?)で理論的根拠のないやり方が通用している面があるのではないかと思います。改めてデータを見直して見ます。

     [このページのトップへ]


547. Re^6: 以下というデータがある場合の平均値 青木繁伸  2003/08/23 (土) 21:58
自助努力で,よい方向へ進んでいると思います。
この線でがんばってみてください。

     [このページのトップへ]


525. Re: 以下というデータがある場合の平均値 ひの  2003/08/21 (木) 01:24
> 5個のデータ(1,2,3,<2,<2)の平均を求める場合<2の値はどう扱ったらいいのでしょうか.

扱えません。「大きい値」と「それより小さい値」の平均値を求めてくださいと言っているようなものです。値も値の範囲すらも確定していないデータに対して「平均を求める」という操作は出来ません。せめて値の上限下限がわかっていれば…。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 025 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る