多重ロジスティックモデル Last modified: Jan 07, 2004
外的基準変数が,ある事象があったかなかったかのような0 / 1 型のデータの場合に,重回帰式を求めると,予測値は負の値や 1 以上の値をとるので不適当である。このような場合には( 2 )式のようなロジスティックモデルが適用できる。
ある事象が発生する確率を $P$ としたとき,$\displaystyle \frac{P}{1 - P}$ はオッズ,その対数をとった $\log\left (\displaystyle \frac{P}{1 - P } \right )$ はロジットまたは対数オッズと呼ばれる。
ロジットが独立変数の線形結合式で表せるとするのがロジスティックモデルである。
\[
\log\left (\displaystyle \frac{P}{1 - P } \right ) =
b_0 + b_1\ X_1 + b_2\ X_2 + \dots + b_p\ X_p = \lambda \tag{1}
\]
これを変形すると,( 2 )式のロジスティック関数が得られる。$P$ は 0 〜 1 の範囲の値をとる。
\[
\begin{align*}
P &= \frac{1}{1+\exp(-\lambda)} \\
&= \frac{1}{ 1+\exp \left \{ -\left (b_0 + b_1\ X_1 + b_2\ X_2 + \dots + b_p\ X_p\right ) \right \}} \tag{2}
\end{align*}
\]
$b_{0}, b_{1}, b_{2}, \dots , b_{p}$ は最尤法によって求めることができる。
最尤法で係数を求める場合には初期値が必要であるが,Truett - Cornfield による判別係数を初期値とすることで,たいていの場合はうまく行く。
補足説明
- 多重ロジスティックモデルは追跡調査によって得られるデータの分析に使われる。断面調査によって得られるデータの分析には使用できない。例えば,現在疾病を持っているかどうかをリスクファクタ( 喫煙,飲酒習慣など )で説明しようとするのは,リスクへの曝露期間が一定ではないので,誤りである。
- 分析によって得られるリスクの予測は,一定期間後のものである。例えば,5 年間の追跡調査に基づく予測は,5 年以前あるいは 5 年以後の予測とは何の関連もない。3 年後の予測には再度データを調整して( 例えば 4 年後に死亡したものは,3 年後の分析では生存としなければならない )再度分析を行わなければならない。
- 各変数が予測にどの程度寄与しているかを判断するためには,標準化係数を見なければならない。
- 得られた予測式は,分析に使用したケースについて最適のものであるが,別のケース群に適用しても有用であるかどうかはわからない。例えば,ある医療機関に受療した患者に適用できても,別の医療機関の受療患者には適用できないかもしれない。得られた予測式が他の集団でも有用であるかどうか(交差妥当性を持つかどうか)について検討したほうがよい。
- 交差妥当性を検証するのはなかなかたいへんな場合がある。そのため,便法として折半法と呼ばれる方法がある。この方法は,既存のケースを無作為に半分ずつに分け,一方のケースを用いて予測式を作り,もう一方のケースを得られた予測式で予測し予測式の有用性を検討するものである。折半法を用いるには,既存のケース数がある程度多くなければならない。
参考文献
- S. H. Walker and D. B. Duncan: Estimation of the probability of an event as a function of several independent variables. Biometrika, 54 , 167 - 179, 1967.
- J. Truett, J. Cornfield, W. B. Kannel: A multivariate analysis of the risk of coronary heart disease in Framingham. Journal of Chronic Disease, 20 , 511 - 524, 1967.
演習問題:
応用問題:
計算プログラム [R] [R の glm] [Python]
直前のページへ戻る E-mail to Shigenobu AOKI