「統計学関連なんでもあり」の過去ログ--- 042

No.07240　分布の予測　　【きみか】　2008/07/30(Wed) 18:41

基本的な質問で申し訳ありません。よろしくお願い致します。

フリー統計ソフトのRで，一般化線形混合モデルを用いて解析を行なおうと思っております。その際に，応答変数の分布を選択しなければなりません。自分の扱っているデータが，連続変数で正規分布していない場合（正規性と等分散性が棄却された場合），どのように分布を選択すれば良いのでしょうか。

度数分布を作成すると，ガンマ分布のような形に見えますが，見た目で選んでよいものでしょうか。よろしくお願い致します。

No.07242　Re: 分布の予測　　【青木繁伸】　2008/07/30(Wed) 21:12

まずというか，とりあえずというか，可能性のあるものを何通りかやってみて，結果を比較してみればいかが？

No.07258　Re: 分布の予測　　【きみか】　2008/07/31(Thu) 19:45

お返事ありがとうございます。とりあえずやってみて，色々な解説記事や本を読んだのですが，基本的な考え方がますますわからなくなってしまいました。

どうか教えて頂けないでしょうか。

グループ間の差を検定をする場合，連続変数で等分散であればAnovaを使うのだと思います。この際の帰無仮説は「グループ間で差がない」であり，これが棄却されれば，有意にグループ間で差があると言えると理解しております。

グループ間の差を検定する場合で，応答変数の性質上Anovaが使えなくて，さらにランダム効果を考慮したい場合には，GLMMを使うのだと理解しております。ただ，GLMMでは，検定をするというより，より当てはまりの良いモデルを選択する，という考え方だと思います。もし，GLMMを用いて，グループ間で差があることを示したい場合，説明変数にグループを入れないモデルより，入れたモデルの方が当てはまりが良いことを示せば，良いのでしょうか。もともと，説明変数には個体（ランダム効果）とグループ（固定効果）しかありません。お手数をおかけ致しますが，教えて頂けると嬉しいです。よろしくお願いします。

No.07266　Re: 分布の予測　　【知ったかぶり】　2008/08/01(Fri) 08:17

北大の久保先生のサイト
http://hosho.ees.hokudai.ac.jp/~kubo/ce/FrontPage.html
が参考になるかと．特に「統計学授業」と「生態学会大会での活動」を御覧になることをお薦めします．

No.07270　Re: 分布の予測　　【きみか】　2008/08/01(Fri) 18:16

お返事をありがとうございます。教えて頂いたサイトを見させて頂きました。まだ，きちんと理解できていない部分もあると思うのですが，少しわかりました。ありがとうございました。

何度も申し訳ありませんが，もう一つ教えて頂けないでしょうか。AICや尤度比検定でモデルを選択後に，そのモデルの各説明変数のDevianceと自由度とp値をanova(modelXX,test="Chi")というコマンドで求めると記述されております。これは，いったいどのような計算を行なっているのでしょうか。また，統計ソフトRでGLMMを行なう際に，推奨されているlmerでは，anova(modelXX,test="Chi")というコマンドを実行できませんでした。何か別のコマンドがあるのでしょうか。

自分でもいろいろ調べておりますが，手がかりを掴めない状態です。
どうか，よろしくお願い致します。

No.07274　Re: 分布の予測　　【知ったかぶり】　2008/08/02(Sat) 21:54

anova()を単一のモデルに対して実行すると，null model（説明変数なしのモデル）との比較結果が出力されます．lmer()でもanova()は使えるはずですが．「test="Chi"」は，尤度比検定を行うことを指定しており，二項分布やポアソン分布のモデルに対して使用するものです．分布がこれら以外の場合は，「test="F"」とするか，単にanova(modelXX)とすれば良いのでは．

No.07309　Re: 分布の予測　　【きみか】　2008/08/06(Wed) 12:00

お返事ありがとうございます。

R2.7.0のバージョンでlmerで作った単一モデルにanova()を実行すると，
> lmer>anova(fitE)
以下にエラー anova(fitE) : Calculated PWRSS for a LMM is negative
のように返されてしまいます。

lmer はランダム効果を必ず含まないと実行できないようので，null model（説明変数なしのモデル）というのは，"応答変数~1+ランダム効果"というモデルになるのでしょうか。それとも，ランダム効果も含まないモデルがnull modelになるのでしょうか。この場合は，glmなどで作れば良いのでしょうか。

あれから調べたのですが，GLMMを使って，ある説明変数（仮にA)が，その応答変数を説明するために重要であるかどうかを調べるために，Aを入れたモデルと入れないモデルの尤度を比較して（尤度比検定），その結果の有意性をみているようです。

null modelとあるモデルを尤度比検定で比較して，あるモデルの方が良い，という結果が得られるのは，当然のような気がします（あるモデルの方が説明変数が多いので）。

説明変数の数が少なければ，いずれにしろ同じことだと思うのですが・・・。

結局，GLMMを用いて，ある説明変数(A)がその応答変数に対して，重要であるかどうかを調べるには，Aを入れたモデルと入れないモデルの尤度を比べれば良い，という理解でよろしいのでしょうか。

また，R2.7.0でlmerを用いた例題と解説などをご存知でしたら，教えて頂けないでしょうか。前のバージョンと出力も解析結果も微妙に違いますし，自分の解析結果が妥当なのか，心配です。

よろしくお願い致します。

No.07326　Re: 分布の予測　　【知ったかぶり】　2008/08/07(Thu) 17:49

＞結局，GLMMを用いて，ある説明変数(A)がその応答変数に対して，重要であるかどうかを調べるには，Aを入れたモデルと入れないモデルの尤度を比べれば良い，という理解でよろしいのでしょうか。

ということだと思いますが，その際，lmer()のmethodはREMLではなくMLを使う等，注意するべき点があるようです．lmer()を用いた一般化線形混合モデルにおける仮説検定については，Julian J. Faraway 「Extending the linear model with R」に記述があります．parametric bootstrapによる正確なp値を得る方法なども書かれていますので，御一読をお薦めします．
ただ，lme4パッケージは結構変更されているようなので，著者のサイト
http://www.maths.bath.ac.uk/~jjf23/ELM/
で変更点を確認した方がよいでしょう．

＞以下にエラー anova(fitE) : Calculated PWRSS for a LMM is negative

これはよくわかりませんが，lmer()のfamilyやmethodにからむ問題ではないでしょうか．普通は，anova(lmer(...))で結果が出力されるはずです(ただし，F値もp値も表示されない)．

＞null model（説明変数なしのモデル）というのは，"応答変数~1+ランダム効果"というモデルになるのでしょうか。

だと思います．対象となるモデルとnull modelの比較は，anova(対象となるモデル，null model)で行うことができ，この場合はp値も表示されます．