「統計学関連なんでもあり」の過去ログ--- 041

No.06483　離散変数か連続変数か？　　【波音】　2008/05/04(Sun) 00:38

率直に質問を述べると，ある店舗における来客数などというのは連続変数でしょうか，それとも離散変数でしょうか。ある学校のクラスごとの出席数とか，各温泉センターにおける牛乳の売り上げ本数などにつていもどうようの疑問があるのですが，

　　　http://aoki2.si.gunma-u.ac.jp/Yogoshu/154.html

に書かれているように，実際には連続変数として解析する場合もあります。

例えば，A温泉センターの牛乳の売り上げ本数というのは，本来的にはとびとびの値をとるので（1.5本などということはあり得ない）離散変数でしょう。そこで，「曜日ごとに売り上げ本数に違いがあるか」という問題を考える場合，独立性の検定を適用することが最も一般的だと思うのです（下のように）。


> dat <- matrix(c(123, 78, 90, 61, 56, 50, 141), ncol=7)
> dat
     [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]  123   78   90   61   56   50  141
> chisq.test(dat)

        Chi-squared test for given probabilities

data:  dat 
X-squared = 85.2354, df = 6, p-value = 2.950e-16

しかし，別ある場合において，例えば，「牛乳の売り上げ本数はA要因とB要因によって影響を受けている」というような問題を考えるときには売り上げ本数を連続変数として扱うこともありえると思います。

仮にA要因を曜日（1～7までのカテゴリカル型のデータ），B要因を天候（晴を1，曇を2，雨を3などとするカテゴリカル型のデータ）として，応答変数を売り上げ本数（これは連続型の変数とする）として解析することも間違いではないと思うのですが，どうなのでしょう（下のように）？


> Milk <- c(23, 45, 12, 89, 100, 56, 78, 32, 109)
> Week <- as.factor(c(1, 1, 3, 4, 2, 7, 5, 3, 5))
> Weath <- as.factor(c(1, 1, 2, 1, 3, 3, 3, 1, 1))
> res <- lm(Milk ~ Week + Weath)
> summary(res)

数値は思いつくままテキトーに作ったので結果はともかくとして，このような解析は「実際は離散量であるが連続量として取り扱ってもかまわないようなものもある」ということに含まれることでしょうか。

No.06484　Re: 離散変数か連続変数か？　　【birei】　2008/05/05(Mon) 00:08

>このような解析は「実際は離散量であるが連続量として取り扱っても
比例尺度はOKと言う事でしょう。だから本数はOK。

No.06493　Re: 離散変数か連続変数か？　　【波音】　2008/05/06(Tue) 22:27

> 比例尺度はOKと言う事でしょう。

なるほど，比例尺度だからということですか。当たり前に扱っていることでも，改めて「なぜか」と考えると以外に理解できていないこともあるような気がします。ちょっと，復習してみようと思います。

No.06500　Re: 離散変数か連続変数か？　　【ごう】　2008/05/07(Wed) 22:01

ある店舗における来客数は素直に考えれば離散変数ですよね？
まず，これを連続変数として取り扱いたいという「気持ち」の部分がよく分からないので，見当違いのコメントになるかもしれませんが。
例えば，来客数を1日あたりとしてみるか，1時間あたりとしてみるか，1ヶ月あたりでは？と考えていくと割り算値（人/日，人/月，人/時間）としてこの変数を使いたくなりますよね？
　生データとして一日あたりの来客数しかもっていないが，営業時間が土日だけ長いというような場合同じ土俵でこの変数を比較することはできない。仕方がないから毎日の来客数を営業時間で割り算して連続変数としてみる（みたい）といったような場合があったとします。しかしこの場合であっても従属変数は割り算せず，離散変数として扱い
glm(y~x1+x2,family=poisson,offset=log(営業時間),data)
として扱います。これで過分散が認められるようなら同じ離散分布を使ったglm.nbでしょうかね。
いずれにしても，負の値をとり得ないような変数に対して正規分布（連続分布）をあてはめようというのは気持ち悪いですよね。統計モデリングをしようというのに，敢えてあてはまりの悪いものに，当てはめようとするわけですから，推定された係数だってあてにならない。

No.06504　Re: 離散変数か連続変数か？　　【青木繁伸】　2008/05/07(Wed) 22:16

> 負の値をとり得ないような変数に対して正規分布（連続分布）をあてはめようというのは気持ち悪いですよね

質問の趣旨と外れますが，「負の値を取らないデータは正規分布ではない」というのは変な論拠です。身長は確かに正規分布ではないけど，正規分布に近い分布をします。そして，負の値は取りません。「正の値しか取らないから正規分布ではない」という論拠は変です。

> まず，これを連続変数として取り扱いたいという「気持ち」の部分がよく分からないので

おっしゃるように，時間単位とか月単位というようにすれば連続変数となるでしょうが，月単位にしたとしても1/30（まあ，1/31とか1/28など）刻みの値しか取り得ません(^_^)

問題は見かけの数値がとびとびであるのが，連続的な値を取る場合と別の分析手法を取る必要があるのかないのかでしょう。重回帰分析の場合は，独立変数の線形変換は分析結果に本質的な違いをもたらさない（測定値の単位は任意ということ）ので，例えば客数が100～1000の値を取るなら，その数値をたとえば 10^10で割ってやれば，それぞれが取る値は見かけ上小さな増分になる（100と101は0.0000000100と00.0000000101になる。そんなことをしても何の意味もないけど）ので，連続変数のように見えますね(^_^)

重回帰分析の従属変数は「間隔尺度」であればよいのです。間隔尺度変数の精度（分解能）は無関係です。

No.06521　Re: 離散変数か連続変数か？　　【波音】　2008/05/08(Thu) 18:22

回答ありがとうございます。

要するに重回帰分析において，問題なのは間隔尺度であるかどうかということで，たとえ従属変数が離散変数であっても間隔尺度であればよろしい，ということなのですね。