「統計学関連なんでもあり」の過去ログ---028

★ 多重回帰・ロジスティック回帰のサンプル数・データセットについて ★

3119.　多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　2004/05/10 (月) 22:57
└3123.　Re: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　太一　2004/05/11 (火) 13:33
　└3124.　Re^2: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　2004/05/11 (火) 14:26
　　└3125.　Re^3: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　太一　2004/05/11 (火) 15:17
　　　└3126.　Re^4: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　2004/05/11 (火) 17:48

3119.　多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　　2004/05/10 (月) 22:57

私は樹木の成長に関する研究を行っています。1個体から何本かの枝をサンプリングし個体数もいくつか取るつもりですが，作業の限界もあるので，枝数・個体数をどこまで減らしてもいいのか？という点が知りたいです。
サンプル枝が，どれだけ成長したか？という項目を従属変数に，サンプル枝の長さ・個体のサイズなどを独立変数にして多重回帰をやってどの要因が効いているのかを解析しようと思っています。また，成長が起こるか起こらないか？を従属変数にするなら，ロジスティック回帰が使えることを知りました。また，個体サイズ（3.5mとか5mいった連続データ）を独立変数に入れて，その効果も知りたいのですが，同じ個体からの枝サンプルは当然同じ個体サイズの値になります。このような状況でも個体サイズを独立変数に入れて枝の成長への貢献度を解析できるのでしょうか？
また，今考えているのは1個体あたり40本の枝×20個体ですが十分なのでしょうか？減らしても大丈夫ならどこまで減らせるのしょうか？

これらの解析は行ったことがなく，知識が乏しいので教えていただけると幸いです。

　　　　　[このページのトップへ]

3123.　Re: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　太一　　2004/05/11 (火) 13:33

>また，今考えているのは1個体あたり40本の枝×20個体ですが十分なのでしょうか？減らしても大丈夫ならどこまで減らせるのしょうか？

各個体（＝一本の木？）から，40本の枝を抽出するというのは，回帰式の右辺の独立性を仮定できなくなるような気がします。この点について検討が必要ではないでしょうか。各個体ごとのダミー変数を独立変数に入れればよいのかも知れませんが。

サンプル数ですが，これは，ほうさんがどの程度の信頼性を要求するかによると思います。
例えば，回帰係数の標準誤差の大きさや，そこから計算される95%信頼区間の幅などの大きさをどの程度にしたいか，という問題になると思います。サンプル数nの関数として，各係数の（理論的な）標準誤差の(あるいは，同じことですが分散共分散行列の対角成分の)値の上限を求めるのは，ちょっと難しいような気がします。というか，よくわかりません。
ただ，実際にソフトウェアで解析をなさってみれば，各係数の標準誤差の推定値が計算されると思います。モデルが適切であれば，nが大きくなれば，信頼性が増すはずですが，そもそもモデルが適切でなければ，そんなことも言えないような気がします。

とりとめのないお答えになってしましました。
これは，多重回帰などの線形モデルで，サンプル数n関数としての各係数の標準誤差の上限を求めるという問題に，帰着されると思います。
この点に関しまして，私も気になってきました。例えば，ロジスティック回帰の場合，最尤法で推定するのが一般的だと思うのですが，回帰係数の分散共分散行列の理論的な上限は，（データセットに依存しない形で）求められるのでしょうか？
どなたか，ご存知の方がいらっしゃいましたら，ご教唆ください。

　　　　　[このページのトップへ]

3124.　Re^2: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　　2004/05/11 (火) 14:26

お答えしていただきありがとうございます。

> 各個体（＝一本の木？）から，40本の枝を抽出するというのは，回帰式の右辺の独立性を仮定できなくなるような気がします。この点について検討が必要ではないでしょうか。各個体ごとのダミー変数を独立変数に入れればよいのかも知れませんが。

1個体あたり40本の枝×20個体＝800本（時間的にこの数も測定しきるのは難しそうですが）の枝をデータセットにしたいと考えています。他の独立変数は1本の枝ごとに異なる値ですが，個体サイズは同じ個体（＝1本の木）なら同じ値なので，ダミー変数の数が「個体数－1＝19」と多くなってしまいますが，可能なのでしょうか？もしできないなら，個体サイズのダミー変数を大・中・小のようにクラス分けした形にすれば可能なのでしょうか？

> サンプル数ですが，これは，ほうさんがどの程度の信頼性を要求するかによると思います。
> 例えば，回帰係数の標準誤差の大きさや，そこから計算される95%信頼区間の幅などの大きさをどの程度にしたいか，という問題になると思います。

僕のやっている生態学分野では多くの論文が5％を有意水準にしているので，この値を有意差の有無のラインにしようと思っています。お答えの中の「各係数の標準誤差の上限を求める」とは「独立変数それぞれの有意性を確かめる」ということでよいのでしょうか？まさにそれがやりたく，それが可能な数（枝数・個体数）をしりたいのですが．．．

　　　　　[このページのトップへ]

3125.　Re^3: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　太一　　2004/05/11 (火) 15:17

>ダミー変数の数が

確かに，ダミー変数の数が多くなってしまいますが，サンプル数が800もあれば，別に問題ないような気もします。むしろ，多重共線性の問題をチェックした方がいいかもしれないですね。ダミー変数を大・中・小のようにクラス分けした形にするのも，一つの方法だと思いますが，これは，個体間の差がそのクラス分けでうまく説明されている必要があると思います。素人の考えですが，単に，（木の大きさでしょうか）大，中，小と分けるだけでは，十分ではないような気がします。例えば，樹木の立地場所などの要因もあるでしょうし。このような点については，ほうさんの方がお詳しいはずだと思います。

＞「各係数の標準誤差の上限を求める」とは「独立変数それぞれの有意性を確かめる」ということでよいのでしょうか？

パラメトリックにモデルを特定すれば，データセットとは独立な形で（理論的な）標準誤差の上限を求められるかな，と思ったのです。想定していたのは，以下のような問題のアナロジーです。
イエス・ノーの2者択一の質問をしたときに，誤差を～％以下に抑えるためには，何人に聞けばよいか，という問題です。2項分布を考えて，ちょっと計算すれば，nの数に依存して，質問して得られたイエスの人の割合は，母集団との誤差～％以内になるはずだ，という理論的な誤差の最大値を得ることが出来ます。

そんな感じで，ロジット分析や，重回帰の回帰係数についても，その誤差の（理論的な）最大値を計算できないかな，と思ったのです。原理的には求められても，けっこう難しいような気がしてきました。すみません，ちょっとわかりません。

サンプルの数をいくつにしたらよいかという問題に対しては，仮定が満たされる限り，多ければ多い方がよい，というものだと思います。ただ，単におおくても，モデルがフィットしていなければ，そのような推定には，意味がないと思います。残差分析をしてみて，モデルがフィットしているかどうかを検討なさるとよいのではないでしょうか。
上に述べたような理論的な誤差の最大値を求められれば，いくつ以上にした方がよいという目安になると思いますが，それを求められない場合には，特に指針はないのではないでしょうか。分野にもよると思いますし，他の研究がどの程度のサンプル数を採用しているかを参考になさるのが，よい気がします。

　　　　　[このページのトップへ]

3126.　Re^4: 多重回帰・ロジスティック回帰のサンプル数・データセットについて　ほう　　2004/05/11 (火) 17:48

どうもありがとうございました。植物相手で季節が重要なため時間との勝負ということになるかもしれませんが，できるだけたくさん取り集めたいと思います。

もし，また新しい情報がありましたらよろしくお願いします。

　　　　　[このページのトップへ]