★ POISSON は Dependent variable が 整数でないとだめ? ★

4380. POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸 2004/09/26 (日) 05:22
└4426. Re: POISSON は Dependent variable が 整数でないとだめ? さら 2004/09/27 (月) 23:24
 ├4465. Re^2: POISSON は Dependent variable が 整数でないとだめ? 竹澤 2004/09/30 (木) 15:02
 │└4466. Re^3: POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸 2004/09/30 (木) 15:49
 │ └4467. Re^4: POISSON は Dependent variable が 整数でないとだめ? 竹澤 2004/09/30 (木) 16:19
 └4446. Re^2: POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸 2004/09/29 (水) 13:30


4380. POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸  2004/09/26 (日) 05:22
修士論文でPoisson regression を使って回帰分析を試みています。
Dependent variable (従属変数)が小数点つきの値なのですが,Poisson は整数の場合しか使えないのでしょうか?
S-Plus で試したところ,結果は出たのですが...
このRegression の結果は使えないのでしょうか?
誰か分かる人がいたら教えてください。

     [このページのトップへ]


4426. Re: POISSON は Dependent variable が 整数でないとだめ? さら  2004/09/27 (月) 23:24
> 修士論文でPoisson regression を使って回帰分析を試みています。
> Dependent variable (従属変数)が小数点つきの値なのですが,Poisson は整数の場合しか使えないのでしょうか?

整数でないといけないということはありませんが,従属変数が Poisson 分布に従っている,という仮定が必要になります。何かの数を数えているのであって,しかも大きい数はごくまれにしか現れない,というのが基本ですね。

整数でないという例: Y=1週間に訪れる客の数,だけど,時々月間のデータしかないという場合は,単位をそろえるために,その月の客の数に7/30をかけて,その結果Yが整数でなくなる,ということはあります。

従属変数が,ちゃんとPoisson分布に従うと仮定できるものでないと,Poisson regression は使えませんよ。

     [このページのトップへ]


4465. Re^2: POISSON は Dependent variable が 整数でないとだめ? 竹澤 [URL]  2004/09/30 (木) 15:02
 竹澤(中央農業総合研究センター・農業情報研究部)です。

>整数でないという例: Y=1週間に訪れる客の数,だけど,時々月間のデータしかないという場合は,単位をそろえるために,その月の客の数に7/30をかけて,その結果Yが整数でなくなる,ということはあります。

 このようにして得られるYはポアソン分布にはしたがいません。
以下のRオブジェクトを実行してみました。
function()
{
set.seed(1)
nd <- 1000
for(kk in 1:50){
  xx <- rpois(nd, lambda=10)
  print("-----")
  print(kk)
  print(mean(xx))
  print(var(xx))
  xx2 <- xx*7/30
  print(mean(xx2))
  print(var(xx2))
  }
}
[1] "-----"
[1] 1
[1] 9.776
[1] 10.84867
[1] 2.281067
[1] 0.59065
などとなります。xx2の分散は平均値とは大きく異なるのでポアソン分布にはしたがっていないことが分かります。
 月ごとのデータと週ごとのデータの両方を使ってポアソン回帰を行う,というようなときには「オフセット」と呼ばれる手法を用います。

     [このページのトップへ]


4466. Re^3: POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸  2004/09/30 (木) 15:49
アドバイスをありがとうございます。
わたしが今扱っているDependent variable は,
ある地域(サンプルの面積平均は4キロ平方メートル)における歩行者事故の件数(1999年から2001年にかけて)/ そのエリアの面積
です。 つまり面積で割っているのでDependent variableは小数点つきになります。
過去の交通工学の論文を読むと,ほとんどの場合「ある区間で一定期間に起きる交通事故の確率分布」というのは ポワゾン分布,過分散の場合は 負の二項分布にしたがう,という結果がでているようです。ただ過去の論文の場合ほとんどのケースで Dependent variable は整数のようです。

では,私の扱っているケースでは,負の二項分布を使うのがいい,ということでしょうか?(過去の論文では,分散と平均値が一致しない場合はポワゾンでなく負の二項分布を採用しているようですが...)
もちろんどの確率分布が適しているかはケースバイケースだと思いますが,正直どの統計学的手法をつかっていいか分かりません。もし何か手がかりになるようなことがあれば教えていただけませんでしょうか?

     [このページのトップへ]


4467. Re^4: POISSON は Dependent variable が 整数でないとだめ? 竹澤 [URL]  2004/09/30 (木) 16:19
 竹澤(中央農業総合研究センター・農業情報研究部)です。

>わたしが今扱っているDependent variable は,ある地域(サンプルの面積平均は4キロ平方メートル)における歩行者事故の件数(1999>年から2001年にかけて)/ そのエリアの面積です。つまり面積で割っているのでDependent variableは小数点つきになります。

 この種の問題について,以下の本の144ページに書かれています。

Jeffrey S. Simonoff(2003)
Analyzing Categorical Data (Springer Texts in Statistics)
ISBN: 0387007490

「For example, when analyzing marriage by state, it is marriage rate (marriage per 100,000 population, say) that is comparable across state,not the actual number of marriage, ---」

同じ範疇の問題だと思います。この後には,オフセットについての解説が書かれています。整数のデータをそのまま使う方法です。
御承知のように過分散があってもポアソン回帰の回帰係数の値には影響しないので,過分散があるときでもポアソン回帰でいいように思います。負の2項分布についてはよく分かりません。

おっと,以下のところで久保さんが「offset」について書いていますね。

http://hosho.ees.hokudai.ac.jp/~kubo/log/2004/0101.html

     [このページのトップへ]


4446. Re^2: POISSON は Dependent variable が 整数でないとだめ? 橋本朋幸  2004/09/29 (水) 13:30
ありがとうございます。
参考にします。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 030 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る