「統計学関連なんでもあり」の過去ログ--- 048

No.22701　二項ロジスティック回帰分析　　【春】　2019/03/30(Sat) 02:00

青木先生

初めて質問をさせていただきます。
spssを用いて二項ロジスティック分析を行っていますが，どうにもわからなくて困っております。ご教示いただけないでしょうか。よろしくお願いいたします。

仮説に基づいて，独立変数群を5モデル作り，それぞれの影響をみるため順番に強制投入しています。以下の2つの方法を試みましたが，投入したモデルは同じなのに結果が違っています（B,標準偏差，wald,有意差，EXP（B)）。なぜ違っているのか，また，どちらのやり方が適しているのかを教えていただけないでしょうか。

①独立変数投入の際にブロックごとに次々と指定していった場合
②ブロックごとの指定せずに「総当たり法」を繰り返し，①のときと同じブロックごとに変数を増やした場合

以上です。

お忙しいところ，申し訳ありませんが，どうか，よろしくお願いいたします。

No.22702　Re: 二項ロジスティック回帰分析　　【青木繁伸】　2019/03/30(Sat) 09:16

（2）の実際の分析過程があいまいなのではっきりしたことが言えませんが，一般的には，「分析に用いる変数セットにより，結果的に選択される変数セットが異なることはよくあること」

（1）の「独立変数投入の際にブロックごとに次々と指定」する場合は，投入順序により結果が異なることがある。増減法であろうと同じことが起きる。
増加法と減少法，増減法と減増法で結果が違うのもよくあること。

「ブロックごとの指定せずに「総当たり法」を繰り返し，（1）のときと同じブロックごとに変数を増やした場合」も同じ。ブロックごとに総当たり法で増やすべき変数を決めても，結局は（1）と同じように，投入順序で結果が違うこともある。

「分析に用いる変数セット」に依存しない方法は，全ての変数を対象に総当たり法でモデルを選ぶ。もっとも，理論的に解釈可能なモデルであるかはチェックする必要がある。

=======

以下のような思考実験をするとよく分かる。

以上のようにして「最良のモデル」が得られた後，ある独立変数を分析に加えたらどうなるだろうか？

その変数が橋にも棒にもかからないヘボ変数で，結果は変わらない。
その変数が，新たにモデルに加えられる。
その変数が，モデルに加えられる一方，今までにモデルに含まれていた変数が不適切とわかり除去される（変数1個とは限らない）
その変数が，モデルに加えられる一方，今までにモデルに含まれていた変数が不適切とわかり除去される（1個とは限らない），そして今までモデルに含まれていなかった変数がモデルに加えられる（1個とは限らない）。
その際，同じブロック内の変数に入れ替えが生じる。
また，ブロック内に適当な変数がなくなる。
さらに，ブロック内の複数の変数がモデルに含まれる。
などなど，全ての状況が考えられる。

だって，それが多変量解析だもの

No.22703　Re: 二項ロジスティック回帰分析　　【春】　2019/03/30(Sat) 12:09

青木先生

早々に明快なご説明をいただきまして，誠に，ありがとうございます。

①も②も変数の投入順序は同じで，結果的にも変数は除去されなかったのですが，値（B,標準偏差，wald,有意差，EXP（B)）が異なるのは，なぜだろうかと不思議に思っていました。
しかし，先生が明示してくださった「全ての変数を対象に総当たり法でモデルを選ぶ」方法で解析を進めようと思います。ありがとうございました。

今後も，どうぞよろしくお願い致します。

No.22704　Re: 二項ロジスティック回帰分析　　【青木繁伸】　2019/03/30(Sat) 16:58

文意がとりにくかったのですが，「最終的に採用された変数は同じ」ということですか？

データに欠損値があったりしますか？
2つの方法で，実際に使用されたサンプルサイズがいくつかわかりますか？
変数が同じでも，実際に分析に使われるサンプルサイズが異なれば，B,標準偏差，wald,有意差，EXP（B)）が異なるのは当たり前です。

No.22705　Re: 二項ロジスティック回帰分析　　【春】　2019/03/31(Sun) 23:27

青木先生

ご連絡ありがとうございます。
本当に，このように親身になって頂いてありがたいです。

ご質問して頂いてように「最終的に採用された変数は同じ」です。
」
そして，「実際に使用されたサンプルサイズ」」を確認すべく，もう一度，spssの結果のlog①と②を見比べてみました。すると，青木先生の仰るようにサンプルサイズが違っていました！
①の方法だと投入した全ての変数の欠損値を含むので，②のサンプルサイズよりも小さくなっていました。
これが原因だったのですね。よくわかりました。

ちなみに，①ではどのモデルもNの値が同じになりますが，②だとモデルごとにNの値が違ってくるということになりますね。論文にモデル1，モデル2，モデル3，モデル4，モデル5と階層的に示したいときには，Nを揃えた①の方法が適切なのでしょうか？
何度も質問させていただき，恐縮ですが，ご教示いただけないでしょうか。

どうぞ，よろしくお願い致します。

No.22706　Re: 二項ロジスティック回帰分析　　【青木繁伸】　2019/04/01(Mon) 08:29

モデルの評価を AIC などで行う場合は，サンプルサイズが同じでないと評価不能ですね。

ただし，対象者の属性により欠損値が生じやすくなるような状況がある場合は，結果の評価に注意が必要になるかもしれません。

なお，変数選択の結果を見て，モデルに残った変数だけを指定して再度分析を行うべきです。
以下のような状況を考察すれば分かるでしょう。
変数が a ~ e，対象者が 9 人。o は測定値がある（欠損値ではない），x は欠損値。
       a b c d e
case1  o o o o x
case2  o o o x x
case3  o o x o o
case4  o o o o o
case5  o o o o o
case6  o o o o o
case7  o o o o o
case8  o o o o o
case9  o o o o o
5変数全部を使って分析を始める場合，c, d, e が欠損値の case1, case2, case3 は分析対象から外されます。分析対象は 6 人です。
その後の変数選択で a, b, d が残ったとします（c, e は採用されなかった）。
これで終わってはいけません。
a, b, d を使って分析することにすると，欠損値を持つとして分析から外されるのは case2 のみとなります。分析対象は 8 人です。 case1 も case3 も分析対象となり，2 人増えます。

No.22707　Re: 二項ロジスティック回帰分析　　【春】　2019/04/01(Mon) 10:56

青木先生

何度も丁寧にご教示いただきまして誠にありがとうございました。

ようやく分かってまいりました。
Nを揃えるときの注意点に気をつけながら，モデルに残った変数でやり直しをしてみます。

ありがとうございました。