No.11070 もう一台の件数分布  【ナグランジアン】 2009/10/15(Thu) 19:28

僕は2台のサーバーA,Bを使ってアクセス解析しているんですが,Bからの情報が取れていませんでした。そこでAから取れた情報のみでBの件数の概算をしたいのですがやり方がわかりません。

条件としてはこのようになります。
・アクセス件数はA,Bどちらかに2分の1の確率で振り分けられるとする。
・明確な件数がわかるのはAのみである。

このときAがn件であったときBはどのような確率分布になるのでしょうか?
おそらくnを中心にした正規分布のようになると思うのですが,意外にやり方がどこにも載っていませんでした。
よろしくお願いします。

No.11072 Re: もう一台の件数分布  【青木繁伸】 2009/10/15(Thu) 22:26

負の二項分布ですかね?
負の二項分布とは,ある事象がk回起こるまでに,何回その事象が起きなかったかという分布。
つまり,A に n 回のアクセスがあるまでに,何回 A にアクセスがなかったか(つまり B へのアクセスがあったかということ)と同じでしょ?

No.11073 Re: もう一台の件数分布  【青木繁伸】 2009/10/15(Thu) 23:20

なるべく愚直な方法でシミュレーションしてみました。
func <- function(n)
{
na <- nb <- 0
repeat {
if (sample(LETTERS[1:2], 1) == "A") {
na <- na+1
if (na == n) {
return(nb)
}
}
else {
nb <- nb+1
}
}
}
set.seed(777)
n <- 10 # A のアクセス数
N <- 100000 # 試行回数
result <- replicate(N, func(n)) # B へのアクセス数
result <- table(result) # 集計
sufix <- as.integer(names(result))+1
freq <- integer(max(sufix)) # カウント0のセルをスキップしないように
freq[sufix] <- result
x <- 0:(max(sufix)-1)
y <- N*dnbinom(x, n, p=0.5)
barplot(freq, ylim=c(0, max(y*1.05))) # B へのアクセス数
axis(1, x*1.2+0.7, x)
lines(x*1.2+0.7, y, col="red", lwd=2) # 理論度数多角形
n を色々変えて(N はもう少し少なくてもよい)試してみて下さい。
図は,クリックすると原寸表示されます


No.11074 Re: もう一台の件数分布  【ナグランジアン】 2009/10/16(Fri) 06:29

詳しい説明ありがとうございます。

負の2項分布というのですね。はじめて知りました。
まさに求めたいものそのものです。

ところでこのプログラムはマクロか何かでしょうか?

No.11075 Re: もう一台の件数分布  【青木繁伸】 2009/10/16(Fri) 07:17

> このプログラムはマクロか何かでしょうか?

R というプログラム言語です
http://cran.md.tsukuba.ac.jp/
http://www.r-project.org/
R version 2.10.0 beta (2009-10-12 r50045)
Copyright (C) 2009 The R Foundation for Statistical Computing
ISBN 3-900051-07-0

Rは,自由なソフトウェアであり,「完全に無保証」です。
一定の条件に従えば,自由にこれを再配布することができます。

Rは多くの貢献者による共同プロジェクトです。

No.11078 Re: もう一台の件数分布  【surg】 2009/10/16(Fri) 10:16

概算ならこれでいいのでしょうが,厳密には「観察対象期間における最後のアクセスが,Aへのアクセスとは限らない」ので,負の二項分布だとちょっと控え目な推定値になるはずです.
ではどうすればいいのかというと,まったくノーアイデアです.
申し訳ありません.

No.11079 Re: もう一台の件数分布  【青木繁伸】 2009/10/16(Fri) 12:13

> 負の二項分布だとちょっと控え目な推定値になるはずです

通常,n は数千〜数十万になると思いますので,無視できると思います。

No.11081 Re: もう一台の件数分布  【ナグランジアン】 2009/10/17(Sat) 19:29

surgさん
なるほど!nになったところでループを出るのではなくn+1を数えたところでループから
脱出しないといけないんですね。

>青木繁伸さん
毎月のアクセスなので多くても3桁,少ないところでは1桁になってしまうんです。。
そうはいっても,そこまで敏感にならなくても上層部の人は大体こんなぐらいか,
って眺めるぐらいなんでいいと思います。

No.11082 Re: もう一台の件数分布  【青木繁伸】 2009/10/17(Sat) 19:47

Bのアクセス数の最尤推定値はAと同じになるので(E(x)=kq/p=k, なんとなれば q=p),「Bのアクセス数の分布は。。。」と言った段階で,上層部の人はパープリンになるのでは(笑)

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る