No.14237 GLM確率分布  【gibaco】 2011/01/27(Thu) 15:31

済みませんが,RもGLMもあまり使ったことがないので,やさしく教えてください。
Rで,以下のような形式のデータを使って,GLMで変数選択をさせようとしています。
animal,    farm,    human,     food,     b200
0.003,    4465,   0.027,    1.107,    96.1
0.012,    2393,    0.022,    1.760,   96.0
0.000,    1549,    0.000,    1.149,   99.4
0.003,    2190,    0.000,    0.419,    67.1
0.002,    1032,    0.000,   0.646,    67.3
0.002,    187,    0.000,    0.445,    65.2
0.000,    4345,   0.000,    0.184,    21.7
0.000,    6763,    0.002,    0.371,    0.0
0.000,    559,    0.000,    0.739,   53.2
0.000,    2586,   0.000,    0.300,    53.1
0.000,    2664,    0.000,   0.741,   64.8
0.000,    7652,   0.002,    0.239,    0.0
0.000,   5208,    0.110,    0.331,    1.8
0.000,   1634,   0.003,    0.151,    99.1
0.074,    119,    0.004,    0.545,    48.9
0.022,    -100,    0.000,    0.256,    58.2
・・・・・以下続く・・・
  こんな式:animal ~ farm + human + food + b200 をつくり,animalの値に対し,farm,human,food,b200がどれだけ影響するか調べたいと考えています。最初に確率分布を 決めなくてはならないのですが,どうしたらいいか困っています。
 animalは連続値でかつ0が含まれていますから,gaussianしかないのでしょうが,計算させてみると,ひどいアンダーディスパージョンになってしまいます。リンク関数をlogにしても同様です。
  そこで,無理やり,すべてのanimal値に0.001を加えて,0値をなくしてやり,Gamma(log)を使うと,ややオーバーディスバージョンにな りましたが,Residual devianceとdegrees of freedomの桁が違うということはありませんでした。しかし,こんな分析は許されているものなのでしょうか?
 それとも,連続値データとして扱うのをあきらめて,ある閾値より大きいかどうかの1,0データに直してしまい,二項分布(多分,このケースは負の二項分布でしょうか)をあてはめた方がいいのでしょうか?
対処法を教えてください。

No.14249 Re: GLM確率分布  【青木繁伸】 2011/01/28(Fri) 00:00

いきなり GLM をやるというのもどうかと思います。
独立変数と各従属変数の散布図を描いてみて,関連がありそうなんですか?その関連は線形ですか非線形ですか?そのあたりの検討から始まるのだと思います。
示されたデータ部分だけから散布図を描いたり相関係数を計算してみると,以下のようになり,このような状態では有用な予測式は得られそうに思えません。
              farm       human        food        b200
animal -0.3926239 -0.07865070 0.03798145 0.02353446


No.14256 Re: GLM確率分布  【gibaco】 2011/01/28(Fri) 12:34

ありがとうございます。
以下が候補にしている要因とanimalの散布図です。なお,要因同士が関係している可能性もあります。animalといくつかの要因とには何らかの関係が見えそうなのですが,何かよい分析方法はありますか?


● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る