「統計学関連なんでもあり」の過去ログ--- 045

No.16699　二項ロジスティック分析と適合度検定　　【ヤギ】　2012/03/30(Fri) 22:13

はじめまして。ロジスティック分析を行ってみました。適合度検定で行き詰まってしまいました。ご教示頂ければ幸いです。
　あるアンケートへの答え方（ハイ，イイエ)に対して，四つの疾患群の罹患の有り無しがどのような影響を与えるのかを，SPSSを用いた二項ロジスティック分析で検討してみました。目的変数としてアンケートの答えハイに1，イイエに0，説明変数として各疾患の有りに1，無しに0を与え分析を行いました。これは素直に理にかなった結果が得られましたが，疾患Xと疾患Yには合併群が結構存在していたため，さらに，XとYの疾患の単独罹患群と合併群がアンケートの答え方にどのような傾向を持っているのかを調べることにしました。疾患Xの単独罹患群をA群，疾患Yの単独罹患群をB群，疾患Xと疾患Yの合併群を独立疾患としてC群，健常群をD群とおいて，A群に属しているか否か：｛A群に属している場合に1，それ以外の群（B＋C＋D群）に属している場合0｝，B群に属しているか否か：｛B群に属している場合に1，それ以外の群（A＋C＋D群）に属している場合0｝，C群に属しているか否か：｛C群に属している場合に1，それ以外の群（A＋B＋D 群）に属している場合0｝という3つ場合を説明変数として，アンケートの結果を目的変数として二項ロジスティック分析を行いました。結果，それぞれの3つの説明変数のアンケート回答に対するオッズ比は得られましたが，これらの適合度検定においてHosmer-Lemeshow検定を行うとそれらの値は ‘1．0’か‘．’となってしまいました。‘．’と表示されるケースは，以前別の方が質問されていたように，カイ2乗が0，自由度0と表示され， ‘1．0’でもカイ2乗が0，自由度1と表示されており，問題があるようです。なお，この解析で得られたオッズ比はそれぞれ，解析対象をA＋Dの集団に限定しAに1，Dに0，B＋Dの集団に限定しBに1，Dに0，C＋Dの集団に限定してCに1，Dに0与え，おのおのロジスティック単回帰分析で得られたオッズ比，すなわ　各疾患群　対　健常群の比較で単回帰して得られたオッズ比に一致しておりました。単回帰の場合は説明変数が1つしかなく，やはり Hosmer-Lemeshow検定では‘．’が表示されます。解析方法に問題があるのか，あるいは適合度判定をどのような方法にしたらよいか，何卒よろしくアドバイスをお願い致します。

No.16700　Re: 二項ロジスティック分析と適合度検定　　【青木繁伸】　2012/03/31(Sat) 12:14

> 以前別の方が質問されていたように

というのは，http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc044/15108.html のことかな？説明変数が1っだけ二値ということが原因でしょう。

> あるいは適合度判定をどのような方法にしたらよいか

適合度を判定することが不適切ということではないですか？せっかくの多変量解析なんですから，一変量だけでなく他の説明変数も加えればいかが（ないのかも知れませんが）。

"Hosmer-Lemeshow"（綴りに注意。間違ってましたよ）で検索してみるとヒントがあるかも。

No.16701　Re: 二項ロジスティック分析と適合度検定　　【ヤギ】　2012/03/31(Sat) 13:32

早速のご教示ありごとうございます。
先生のおっしゃる通りでした。性差などの別の変数を加えてみるとうまく行くようです。やはり，説明変数が少ないこと，二値であることが原因のようです。
大分すっきりしました。
ところで，
適合度を判定をすることが不適切ということは，このように説明変数が少ないときは適合度は見なくてよいのでしょうか。
判別的中率は結構良いようなのですが（ほとんどが90％以上，悪くとも80％弱），これで適合度を判定するというのは如何でしょうか。

また，今回A群B群C群D群全体の集団を使用し，AあるいはBあるいはCのいずれに属しているかどうかいう3つの説明変数で重回帰した場合と，それぞれ A：D，B：D，C：Dの比較による単回帰で得られたオッズ比の数値がまったく一致したというのは，偶然の一致ではなく，重回帰の場合，偏回帰係数を用いてそれぞれの説明変数相互間の影響し合う部分が取り除かれたことによると解釈してよろしいのでしょうか。
確かに重回帰に用いた前述の3つの変数は当該疾患以外の部分にその他の2つの疾患（合併群もひとつの疾患と定義）が入っており，これらの影響を除くと，理屈上は当該疾患と健常群の比較としてみれるかと思いますが，この解釈よろしいのでしょうか。
厚かましくて大変申し訳ありませんが，この点もお教え頂きく存じます。

No.16702　Re: 二項ロジスティック分析と適合度検定　　【青木繁伸】　2012/03/31(Sat) 14:00

> このように説明変数が少ないときは適合度は見なくてよいのでしょうか

説明変数が少ないというより，予測値の種類が少ない（10以下）というようなこと（カテゴリー変数など，特に二値変数）が原因です。
見なくてよいということではなく，見ることが出来ないということです。

> 判別的中率は結構良いようなのですが（ほとんどが90％以上，悪くとも80％弱），これで適合度を判定するというのは如何でしょうか。

いいとは思いますが，説明変数さえ多くすれば，その説明変数が実質的な意味がない場合であっても判別適中率はいくらでもあげることが出来ます。十分な数の説明変数を使えば，適中率を100％にすることも出来ます。

> オッズ比の数値がまったく一致したというのは，偶然の一致ではなく，重回帰の場合，偏回帰係数を用いてそれぞれの説明変数相互間の影響し合う部分が取り除かれたことによると解釈してよろしいのでしょうか。

表示される範囲の値（小数点以下3桁までとか）が一致したということではなく，完全に一致する（コンピュータ上の内部表現として）のでしょうか？（完全に一致するかどうかは，コンピュータ上で数値を比較する必要がありますが，そのようなことを SPSS で確認出来るのでしょうか？）

似たような状況（と思われる）データを作って分析してみて，いつも同じ結果になるなら，理論的にそうであるという可能性が高くなるでしょうね。

No.16703　Re: 二項ロジスティック分析と適合度検定　　【ヤギ】　2012/03/31(Sat) 23:25

ありがとうございます。

「説明変数が2値の場合，予測値の種類が10より少なくなり，適合度を見ることができないことが発生する」ということ，分かりました。
確かに予測値が10段階よりかなり少なく，‘．’のときはステップが2つしかなく‘1．0’のときは3つしかありませんでした。

「説明変数の数を増やせば，判別的中率もいくらでも高めることができる」ということは，確か，「人間の顔の特徴をすべて言い尽くせば，確実にその人を当てることができる」という比喩で，統計学の授業で聞いたことがあったかなあと思い出しました。
これは「重相関係数の平方は，重回帰式に含める説明変数の数の増加に従って大きくなり，説明変数の数が被験者数より一つ少ない数に一致すると，変数の相関係数の大きさとは無関係に1．0になってしまう」ということに関係しますか？

ご指摘の通り，一致した数値は表示される範囲の値，小数点以下3桁までです。
SPSSの表示された数値は画面上は小数点以下3桁まででしたが，さらにその数値をダブルクリックすると小数点以下12桁まで表示ができました（数値が0．000と表示されていた場合は小数点以下19桁まで表示可能でした）。

これを書いている段階で，すべての数値を確認することは時間的にできませんでしたが，サンプルで調べた限りでは

「アンケートの1項目につき，3つの説明変数の重回帰分析で得られた3つのオッズ比のうち，0．000と表示されてしまったオッズ比を含んだアンケート項目」では，
それぞれの単回帰分析で得られたオッズ比と比較して，
0．000の値はダブルクリックで表示された小数点以下19桁まで完全に一致し，
その他の2つの説明変数におけるオッズ比は小数点以下12桁中，小数点以下第6位あるいは小数点以下第7位まで一致しておりました。

「3つの説明変数の重回帰分析で得られた3つのオッズ比に0．000値が含まれない場合」は，
重回帰分析で得られた3つの変数におけるオッズ比と単回帰で得られたオッズ比は，ダブルクリックで表示された小数点以下12桁まで完全に一致しておりました。

ちなみに各回帰係数（対数オッズ比）の有意確率も，やはり，通常で表中に表示された数値は小数点以下3桁まですべて一致してます。
しかし，
この有意確率も表の数値をダブルクリックすると，数値により小数点以下13から16桁までが表示されました。（設定された書式によりクリック後の表示桁数は異なるようです。その設定変更は通常の書式変更あるいはプロパティ内の書式変更ではできないようでした）

これによると，0．000と表示されたオッズ比の有意確率は，ダブルクリックで表示された小数点以下14桁までの数値がすべて一致，他の数値は小数点以下第8位～第16位以下の値から異なってくるようです。

こうしてみると，コンピュータの内部表現としては，値は完全には一致してないようです。重回帰分析と単回帰分析における計算過程での差でしょうか。しかし，得られた数値はかなり近似しているようです。
言い忘れましたが，回帰式のモデル検定の有意確率の値は，重回帰分析と3つケースの単回帰分析において，当然ですが，通常の表示値においても，まったく異なっておりました。

先生のおっしゃるとおり，他の変数でもこのような状況は設定はできますので，是非追試を行ってみたいと思います。結果がでましたら，ご報告申し上げます。
このたびは本当にありがとうございました。