No.09184 モデル選択に関して  【みすみ】 2009/02/10(Tue) 14:09

モデル選択についてご助言をよろしくお願い致します。
従属変数が登校率です。
n=400のデータで,nは学校一つの単位ではなく,いくつかの学校がまとまった地域の単位です。
連続尺度の独立変数が7と,名義尺度(学校種別の大小で5分類)が1つあります。
「学校種別が小さくなると,登校率が下がる」というような結論を考えています。
この場合,今までは学校種別をダミー変数として投入して回帰分析をしていたのですが,他の論文を読んでいて,HLMで階層化した方が導きたい結論に適した分析ができるのではと思い始めました。
しかし,いまいちはっきりとこの2つの分析の違いがわかりません。

さらに問題なのは,HLMでは分析前の処理が必要なようですが,現在手もちのものでは算出できないことです。
(HLMで分析できるようならソフトを購入する予定です)
今回のようなデータの場合,どのように分析する方がよりよいのでしょうか?
より正しい手法を選択したいと考えています。
初歩的な質問で申し訳ございませんが,宜しくお願いいたします。

No.09188 Re: モデル選択に関して  【にゃんちゅう】 2009/02/10(Tue) 21:15

http://www4.ocn.ne.jp/~murakou/HLM.ppt

にあるような分析でしょうか? 「学校種別が小さくなると,登校率が下がる」では,いまいちHLMを使う必然性がわからないので仮説をもっとクリアにしてもらえないでしょうか。

No.09190 Re: モデル選択に関して  【みすみ】 2009/02/11(Wed) 01:37

>にゃんちゅうさま
ご返答ありがとうございます。わかりにくい説明ですみません。
私が言いたいのは,まさにお示しいただいたpptにあるような分析です。従属変数として地域ごとの登校率の平均(n=400)があります。
(計測単位は1年に半期の1回で計3年分)
分 析は,各学校種別を階層として,その種別ごとのを差違をみたいと考えています。pptにある通り,今までは独立変数にダミー変数として学校種別を投入して 回帰分析を行い,種別の要因が消えたり消えなかったりという感じだったのですが,今回は「○○種別に関してはこうなっている」というような結論を出せるよ うにしたいです。
このような説明で足りますでしょうか?お手数をおかけしてすみません。よろしくお願いいたします。

No.09221 Re: モデル選択に関して  【aaa】 2009/02/13(Fri) 16:17

傍観させていただいておりましたが,返信が無いようですので私に分かる範囲で意見を述べさせていただきます。尤 も,統計に関しては専門的な教育を受けたことがなく,年に数回しか統計解析をしていない素人ですのでその点ご了承下さい。間違いがございましたら他の方が 訂正していただければ幸いです。
「各学校種別を階層として」とありますが,同一の変数内で階層を考えるのではありません。例えば,(私の仕事に関 連した例で恐縮ですが),Level1に各々の目,Level2に各々の個人,Level3に薬剤投与群or非投与群,というように考えます。なぜ階層を 考えるかといいますと,例えば,Aさんの右目の測定値と左目の測定値は非常に似ていると考えられ,独立では無いと思われるからです。回帰分析を含む一般線 型モデルでは,個々のデータは独立と仮定していますが,個々のデータが独立では無いと問題が起きるからです。

回帰分析を含む一般線型モデルでは,個々のデータは独立と仮定しているので,独立では無いと問題が起きるからです。擬似反復という問題で,例えば
1 薬剤投与群1名,非投与群1名 各々1000回繰り返して測定
2 薬剤投与群1000名,非投与群1000名 各々1回だけ測定
各々のデータが独立と仮定してt検定をすればほぼ間違いなくどちらも有意になると思われますが,1のデータで有意差が出たとしても2群に差があったとは言 えないのは感覚的に分かると思います。HLMをみすみさんのデータに適用すると,Level1に地域,Level2に各年度,Level3に学校種別とす るのが妥当ではないかと思います。

「Linear Mixed Models: A Practical Guide Using Statistical Software」には,SAS,SPSS,R,Stata,HLMの各ソフトウエアでの具体的な使用方法が載っています。SASを使用する予定で和書が 希望であれば,絶版ですが「医学統計のための線型混合モデル」には具体的な使用例が豊富なので図書館で探してみてはいかがでしょうか。

例えばデータが以下のような構造をしているとし(var1,var2…は連続尺度の独立変数),データの名前をtoukourituとすると
登校率 地域 年度 学校種別 var1 var2 …
89 1 0 2 25 32
87 1 1 2 25 32
84 1 2 2 25 32
98 2 0 5 12 28
99 2 1 5 12 28
96 2 2 5 12 28

79 400  1 1 36 10

Rでやるなら,
library(nlme)
model1 <- lme(登校率 ~ 学校種別 + var1 + var2 + va3 + var4 + var5 + var6 + var7, random = 1|年度/地域, data=toukouritu)
summary(model1)
というようになると思います。
「その種別ごとのを差違をみたい」とのことですが,例えば学校種別3と5に有意な差があるかどうか検定したい時は上述のコードを実行した後以前私が書いた
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc041/06810.html を参考に
library(gmodels)
estimable(model1,c("学校種別3"=1,"学校種別5"=-1)
とすればいいかと思います。

No.09227 Re: モデル選択に関して  【青木繁伸】 2009/02/13(Fri) 21:19

> 長いと投稿できないようなので分割して投稿します。

そんなことはありません

なお,発言中に,url の引用が5以上ある時には,どんなに短くても発言は拒否されるでしょう。また,NGワードを含む記事も同様。

No.09232 Re: モデル選択に関して  【にゃんちゅう】 2009/02/15(Sun) 08:47

aaaさんの説明でわかるようにあなたの仮説ではHLMを使う必要はありません。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る