★ ロジスティック回帰の対数尤度比検定 ★

1608. ロジスティック回帰の対数尤度比検定 takato 2004/01/06 (火) 13:49
└1613. Re: ロジスティック回帰の対数尤度比検定 青木繁伸 2004/01/06 (火) 14:55
 └1616. Re^2: ロジスティック回帰の対数尤度比検定 takato 2004/01/06 (火) 16:00
  └1621. Re^3: ロジスティック回帰の対数尤度比検定 takato 2004/01/06 (火) 17:36
   └1623. Re^4: ロジスティック回帰の対数尤度比検定 青木繁伸 2004/01/06 (火) 19:16
    └1644. Re^5: ロジスティック回帰の対数尤度比検定 takato 2004/01/08 (木) 11:21
     └1645. Re^6: ロジスティック回帰の対数尤度比検定 青木繁伸 2004/01/08 (木) 12:08
      └1650. Re^7: ロジスティック回帰の対数尤度比検定 takato 2004/01/08 (木) 13:18


1608. ロジスティック回帰の対数尤度比検定 takato  2004/01/06 (火) 13:49
はじめまして。
ロジスティック回帰の対数尤度比検定について質問いたします。
カイ2乗統計量を用いて,説明変数の効き具合を調べようとしています。
(1)例えば,カイ2乗の値が,説明変数aでは20,説明変数bでは40のとき,変数bは変数aの2倍の説明力があると考えてよいのでしょうか。
 (そもそも,変数bが変数aの「2倍の説明力がある」ということは,変数aの値を1増やすと,目的変数の確率が1%増えるとき,変数bの値を1増やすと,目的変数の確率が2%増える,というように考えてよいのでしょうか)。
(2)サンプルデータを複数のグループに分けて,それぞれのグループごとにモデルを作成しています。
 目的変数,説明変数はどのモデルも全く同じですが,サンプル数は異なります。
 この場合,モデル間でカイ2乗の値を比較することは可能でしょうか。
 例えば,カイ2乗の値が,モデルAの説明変数cでは20,モデルBの説明変数cでも20のとき,説明変数cはそれぞれのモデルの目的変数に対して同じ説明力を持っていると考えてよいのでしょうか。

     [このページのトップへ]


1613. Re: ロジスティック回帰の対数尤度比検定 青木繁伸  2004/01/06 (火) 14:55
> (1) 例えば,カイ二乗値が,説明変数aでは20,説明変数bでは40のとき,変数bは変数aの2倍の説明力があると考えてよいのでしょうか。

ここで言っているのは,対数尤度比検定に間違いないのですね。
ということは,説明変数aを使う分析,説明変数bを使う分析と別々にやっているのですか?

多重ロジスティック分析をすれば,偏回帰係数の比較によっていずれの説明変数がどれくらい従属変数に影響を及ぼすかが直接わかるのですが?私の読み違いですか?

そうでないとしても,おっしゃるようなことは成り立たないと思います。カイ二乗値は説明変数の説明力を表すものではない(少なくともカイ二乗値が二倍なら説明力が二倍などというものではない)と理解しているのですが。

他の方,フォローお願いします。

     [このページのトップへ]


1616. Re^2: ロジスティック回帰の対数尤度比検定 takato  2004/01/06 (火) 16:00
早速のご回答ありがとうごさいます。

>ここで言っているのは,対数尤度比検定に間違いないのですね。
>ということは,説明変数aを使う分析,説明変数bを使う分析と別々にやっているのですか?

はい,対数尤度比検定です。
CLEMENTINEを使っており,分析は別々に行っておりませんが,出力結果にカイ2乗値が出てきます。「カイ 2 乗統計量は最終モデルと縮小モデルとの間の -2 対数尤度の差です。」というコメントがあるので,間違いないかと思います。

>多重ロジスティック分析をすれば,偏回帰係数の比較によっていずれの説明変数がどれくらい従属変数に影響を及ぼすかが直接わかるのですが?私の読み違いですか?

説明不足で申し訳ありません。使っている変数はカテゴリカル変数で,それぞれの変数が20前後のカテゴリを持っています。カテゴリごとの係数(ダミー変数の係数)は分かるのですが,カテゴリカル変数としての効き具合を調べるために,カイ2乗の値を使おうとしました。例えば,男性の係数,女性の係数というとらえ方ではなく,「性別」という項目が,どのくらい従属変数に影響を与えているか知りたいのです。

     [このページのトップへ]


1621. Re^3: ロジスティック回帰の対数尤度比検定 takato  2004/01/06 (火) 17:36
質問の背景及び分析状況

消費者信用の初期与信モデルを作成しており,分析手法として多重ロジスティック回帰分析を使用しています。目的変数は,一定取引期間後の重度延滞有無です。説明変数には性別や婚姻有無や業種など,個人の定性的なデータを用いています。年齢と婚姻有無など関係の強いデータは,カテゴリを組み合わせてひとつの変数にしています。モデルの説明力を上げるため,年齢階級に応じて,サンプルを若年,中年,高齢の3グループにサンプルを分け,それぞれ別々にモデルを解いています。

サンプル数は53,000件程度であり,各グループのサンプル数は15,000〜22,000程度です。説明変数は,各モデルとも7つで,すべてカテゴリカル変数です。カテゴリ数は,最も少ない変数で3個,最も多い変数で35個です。ソフトはCLEMENTINEを用いています。

各説明変数の目的変数への影響を比較したいと思っています。

情報の不足等ありましたら,ご指摘くださいますようお願いします。

     [このページのトップへ]


1623. Re^4: ロジスティック回帰の対数尤度比検定 青木繁伸  2004/01/06 (火) 19:16
http://aoki2.si.gunma-u.ac.jp/LaTeX/sreg-qt1.pdf
に,示した文書中の「5.3 アイテム変数と従属変数の相関関係」というところに書いてあることは参考になりませんでしょうか。

つまり,ダミー変数を用いた重回帰分析である数量化I類において,複数のカテゴリーからなるアイテム変数と従属変数の関係を見るときと同様に,ロジスティック回帰分析において複数個のダミー変数から計算される一つのアイテム変数の値(同時に複数のアイテム変数を用いても同じ)を用いてもう一度ロジスティック回帰を行うのです。つまり,ダミー変数を使った分析の段階では各カテゴリーの数量化が行われるので,その結果を同じアイテム変数の下にあるカテゴリー変数の値を計算し,それを使ってロジスティック分析するのは何の問題もないことですよね。そうすれば,アイテム変数のレベルでどのアイテム変数がどの程度重要なのか相互比較できると思いますがいかが?
(重回帰分析の場合で言えば,ダミー変数に 0/1 ではなくて,0/1 ダミー変数を使って重回帰分析をした結果の偏回帰係数値を与えて分析してやると,偏回帰係数が1になります。http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html の,下の方に例が挙げてあります。わざわざ例を挙げるまでもなく,自明ですが。)。

ちなみに,多変量解析は「同時に分析に使用される変数の影響」を考えて行うものですから,たとえば性別を使った分析結果と職業だけを使った分析結果のどちらが優れているかはわかりますが,第三,第四・・・の変数が一緒になるとその優劣自体が変化します。

そのようなことを考えても,前述したようなアプローチが必要なのではないでしょうか。

     [このページのトップへ]


1644. Re^5: ロジスティック回帰の対数尤度比検定 takato  2004/01/08 (木) 11:21
ご教授いただきありがとうございます。

教えていただいた方法でアイテム変数を尺度変数化し,偏回帰係数を出してみました。このとき,変数の標準化を行ったのですが,問題ないでしょうか?

結果は,カイ2乗値の大きさの順序とほぼ同じになりました。モデルからその変数を取り除いたとき影響(カイ2乗値)と従属変数への影響(偏回帰係数)とは別々のものとして考えるべきなのでしょうか?

各グループ間で,重度延滞率が異なるのですが,モデル間で偏回帰係数を比較できるように修正するにはどうすればよいでしょうか?例えば,若年モデルの職種の係数が1,中年モデルの職種の係数が1のとき,両モデルでの職種の効き具合は同じだ,といえるように修正できないでしょうか?

     [このページのトップへ]


1645. Re^6: ロジスティック回帰の対数尤度比検定 青木繁伸  2004/01/08 (木) 12:08
> 各グループ間で,重度延滞率が異なるのですが,モデル間で偏回帰係数を比較できるように修正するにはどうすればよいでしょうか?

不思議に思っていたのですが,年齢をそのまま(カテゴリー化しないで)モデルに含めれば,グループ化する必要もなく,グループ間で偏回帰係数を比較するというような悩みもなくなるのですが??

     [このページのトップへ]


1650. Re^7: ロジスティック回帰の対数尤度比検定 takato  2004/01/08 (木) 13:18
> 年齢をそのまま(カテゴリー化しないで)モデルに含めれば,グループ化する必要もなく,グループ間で偏回帰係数を比較するというような悩みもなくなるのですが??

これは,年齢階級によって,効いてくる変数が異なることが事前に行ったクロス集計などから(大体は)分かっているからです。例えば,若年層では,他社借入額などがダントツに重度延滞有無に影響があるのですが,高齢層では,他社借入額の他,勤続年数(このような定量的な値はカテゴリに分けている)や業種といった項目も大きく関係してきます。このため,一度にモデルを解くと,この違いがぼやけてしまうのです。
実際,一度にモデルを解いたものと,年齢別にモデルを解いたものを比較すると,若干ですが,年齢別の方がモデル全体の説明力が向上します。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 027 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る