No.12612 独立でないデータを含む一般化線型モデル  【こおい】 2010/05/12(Wed) 19:37

皆様,いつもお世話になっています。今回は一般化線型モデルの組み方について教えて下さい。

圃場試験で土 壌中の虫の密度(Den)への栽培管理(Tret)2水準,深度(Lay)2水準,調査月(Mon)3水準の影響を調べようとしています。試験区(反復) はTretごとに3個ずつ,計6個です。毎回の調査で,各試験区において採土缶で深さ5cmのコアを1つ採り,上下2層に分割し(Lay2水準),各々に ついてDenを調べます。よって1回の調査で12個のデータが得られ,3回の調査で計36個のデータが得られます。LayとMonに関してデータが独立で はないのですが,どのようなモデルを組めばよいでしょうか? LayとMonの影響に興味がなければ,一般化線形混合モデルでこれらをランダム効果として 指定すればよいのかもしれませんが,Tretと同じくこれらの影響にも興味があるのです。なお,データ全体はガンマ分布的で,BoxCoxでλを算出し適 当な変換をしても正規分布になりませんので,MANOVAは使えないと考えます。例えば,LayとMonをTret内での入れ子と考え,下記のようなモデ ルでよいでしょうか?

glm(Den~Tret/(Lay*Mon), family=Gamma)

ご教示いただければ幸いです。
よろしくお願いいたします。

No.12619 Re: 独立でないデータを含む一般化線型モデル  【知ったかぶり】 2010/05/14(Fri) 09:21

>データ全体はガンマ分布的

データの分布というのは,同じ条件のもとでランダムサンプリングを行ったときに,測定値がどのようにばらつくか,ということです.つまり,全36個のデータの分布ではなく,各3反復の測定値のばらつきです.データが3つでは,分布の形は判断できませんよね.

>Tretと同じくこれらの影響にも興味がある

であれば,LayとMonも普通に説明変数に指定すればよいでしょう.ただし,Layについてデータには対応があるので,同じ採土缶で取られたサンプルにIDをつけて,IDを説明変数に含めるか,ランダム効果に指定する必要があると思います.

>試験区(反復)はTretごとに3個ずつ

1 つの圃場からランダムに3つのサンプルを取ったのか,3圃場(ないしは試験区)から1つずつサンプルを取ったのかによって,データの扱いを変える必要があ るかもしれません.後者の場合,データは圃場(試験区)毎に対応があるので,上記と同様に対応を考慮した方がよい場合もあります.ややこしくなるので,で きれば避けたいですが.

No.12626 Re: 独立でないデータを含む一般化線型モデル  【こおい】 2010/05/15(Sat) 11:22

知ったかぶり様

ご回答いただきありがとうございます。
データの分布について私が誤解しているのかもしれませんが,今一度教えていただければ幸いです。よろしくお願いいたします。

>>データ全体はガンマ分布的
>データの分布というのは,同じ条件のもとでランダムサンプリングを行ったときに,測定値がどのようにばらつくか,ということです.つまり,全36個のデータの分布ではなく,各3反復の測定値のばらつきです.データが3つでは,分布の形は判断できませんよね.

デー タの分布が試験区内のものだとすると,試験区ごとに分布型が違うこともあるだろうし,その場合,どうやって1つの分布型を選び,構造モデルを組むのです か? また,要因試験と同じくglmで扱う回帰分析の場合は一般に,説明変数の1つの値,つまり「同じ条件」,に対応する目的変数は1つです。これでは 「ばらつき」ようがないですが,回帰分析でも分布型を指定しますよね。この時はどのデータの分布型を指すのですか?

>>Tretと同じくこれらの影響にも興味がある
>であれば,LayとMonも普通に説明変数に指定すればよいでしょう.ただし,Layについてデータには対応があるので,同じ採土缶で取られたサンプルにIDをつけて,IDを説明変数に含めるか,ランダム効果に指定する必要があると思います.

ありがとうございます。検討してみます。

>>試験区(反復)はTretごとに3個ずつ
>1 つの圃場からランダムに3つのサンプルを取ったのか,3圃場(ないしは試験区)から1つずつサンプルを取ったのかによって,データの扱いを変える必要があ るかもしれません.後者の場合,データは圃場(試験区)毎に対応があるので,上記と同様に対応を考慮した方がよい場合もあります.ややこしくなるので,で きれば避けたいですが.

残念ながら後者の方です。Lay/ID, Mon/IDといった項が必要になるのでしょうか?

No.12628 Re: 独立でないデータを含む一般化線型モデル  【知ったかぶり】 2010/05/15(Sat) 17:55

>データの分布が試験区内のものだとすると,試験区ごとに分布型が違うこともあるだろうし,

こ こでデータの分布といっているものは,実測値のばらつきそのものではなく,母集団のハナシです.そして母集団というのは,こおいさんの場合で言えば,同じ Tret,Lay,Monの条件下でランダムサンプリングされた測定値の集合を意味します.つまり,複数の母集団があるわけですが,一般化線形モデルで は,どの母集団も同一の分布にしたがう(ただし,平均値などのパラメータが等しいとは限らない)と仮定します.ですから,本当の意味で試験区毎に分布型が 異なっている場合は,お手上げです.
サンプルサイズが十分大きければ,実測値から母集団の分布を「推定」することができますが,それができない場 合は,理論的,経験的に妥当と考えられる分布を仮定することになります.あくまでも一般論ですが,虫の密度は非負の整数なので,ポアソン分布か負の二項分 布にしたがうとするのが自然だと思います.

>glmで扱う回帰分析の場合は一般に,説明変数の1つの値,つまり「同じ条件」,に対応する目的変数は1つです。これでは「ばらつき」ようがない

?  回帰分析であっても,説明変数と目的変数が1対1対応であるとは限らないし(例えば,1つの検体を繰り返し測定するような場合),そういう場合であって も,目的変数の測定値は,母集団の「真の値」の周辺に母集団の確率分布にしたがって「ばらついている」というのが,回帰分析の考え方です.

>残念ながら後者の方です

ケースバイケースだと思います.例えば1つの圃場を便宜的に3つに区切った場合や圃場間差が小さいと考えられる場合は,1圃場からのランダムサンプリングとみなしても良いかもしれません.

No.12632 Re: 独立でないデータを含む一般化線型モデル  【こおい】 2010/05/17(Mon) 12:13

知ったかぶり様

データの分布の件は私が誤解していました。ご指摘いただきありがとうございます。勉強になりました。

反復の件に絞って再度ご教示願います。

>ケースバイケースだと思います.例えば1つの圃場を便宜的に3つに区切った場合や圃場間差が小さいと考えられる場合は,1圃場からのランダムサンプリングとみなしても良いかもしれません.

仮 に1つの圃場からのランダムサンプリングだとしても,同一圃場から3回採取することになります(Monの水準が3個)。この場合,採土缶のIDは調査月も 考慮して 計6個を付けることになるのでしょうか(ID=1,2,3,,,,6)?そしてモデルは,例えば次のようなものになるのでしょうか?
Den~Tret+(1|Mon/Lay/ID)

アドバイスいただければ幸いです。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る