No.03489 AICによるクロス表のカテゴリ分け  【bootstrap】 2007/05/29(Tue) 02:21

勉強不足で申し訳ないのですが,どうしても理解できないことがあり,初めて質問させていただきます.
「数量化理論とデータ処理」P.42-43に,AICによるクロス表の最適カテゴリ化に関して以下の内容の記述があります.
2つのアイテムにおいて,AIC(M0)を独立であるモデルM0の情報量基準,AIC(M1)を独立でないモデルM1の情報量基準としたとき,
 (1)AIC(M1)−AIC(M0)の符号の正負で独立,非独立の判定をする
 (2)AIC(M1)−AIC(M0)が最小値であるものが最適なカテゴリ化
(1)は理解できるのですが,(2)がわかりません.AIC(M0)が小さい方が独立なのだから,上式が正なら差は大きいほうが良い(最大値)のではないでしょうか?また,もし負なら差は小さい方が良いため,やはり最大値(ゼロに近い)方が良いのではないでしょうか?

No.03492 Re: AICによるクロス表のカテゴリ分け  【青木繁伸】 2007/05/29(Tue) 09:20

> 「数量化理論とデータ処理」

著者,出版社は?

No.03509 Re: AICによるクロス表のカテゴリ分け  【青木繁伸】 2007/05/30(Wed) 00:21

調べれば分かるって
駒澤勉(1986).『数量化理論とデータ処理』朝倉書店

で,微妙な思い違いがあるように思うんですけど。実際のデータについて,計算してみれば,言わんとしているところは分かると思うんですけど。どうでしょうか?

No.03513 Re: AICによるクロス表のカテゴリ分け  【bootstrap】 2007/05/30(Wed) 09:43

長文になってしまいますが,少し具体的に書かせてください.
アイテム(Xj,Xu)に関するクロス集計表として,(a),(b)の2つの候補があるとします.アイテム同士が独立であると仮定した情報量AIC(M0)と非独立であるとしたAIC(M1)を計算し,その大小を比較します.(以下を参照)
cross(a)
| Cu1 Cu2 Cu3 |SUM
----|-------------|----
Cj1 | 5 12 12 | 29
Cj2 | 8 12 3 | 23
----|-------------|----
SUM | 13 24 15 | 52

AIC(M0)=-2(5ln(13*29/52^2)+12ln(24*29/52^2)+12ln(15*29/52^2)
+8ln(13*23/52^2)+12ln(24*23/52^2)+ 3ln(15*23/52^2))
+2(2+3-2)
=187.8

AIC(M1)=-2(5ln(5/52)+12ln(12/52)+12ln(12/52)
+8ln(8/52)+12ln(12/52)+ 3ln( 3/52))
+2(2*3-1)
=186.1

AIC(M1)-AIC(M0)=-1.7 <0 であるから,非独立


cross(b)
| Cu1 Cu2 Cu3 |SUM
----|-------------|-----
Cj1 | 1 12 16 | 29
Cj2 | 3 16 4 | 23
----|-------------|-----
SUM | 4 28 20 | 52

AIC(M0)=-2(1ln(4*29/52^2)+12ln(28*29/52^2)+16ln(20*29/52^2)
+3ln(4*23/52^2)+16ln(28*23/52^2)+ 4ln(20*23/52^2))
+2(2+3-2)
=170.8

AIC(M1)=-2(1ln(1/52)+12ln(12/52)+16ln(16/52)
+3ln(3/52)+16ln(16/52)+ 4ln( 4/52))
+2(2*3-1)
=166.2

AIC(M1)-AIC(M0)=-4.6 <0 であるから,非独立
独立である方がもちろん最良なのですが,非独立であるこれらのうち,データ解析に適切なものはどちらか?というのが問題です.
この問題に対し,先の本にはAIC(M1)-AIC(M0)の差が最小の(b)のクロス表の方が良い,と書かれているのですが,何故でしょうか?
差の正負が独立・非独立を決定することはわかりますが,差の大小を比較する意味は何なのか?よくわかりません.

AICを用いたクロス集計表の作成について書かれている本などはあるのでしょうか?

No.03515 Re: AICによるクロス表のカテゴリ分け  【青木繁伸】 2007/05/30(Wed) 10:33

> AIC(M1)-AIC(M0)の差が最小の(b)のクラス表の方が良い,と書かれているのですが,何故でしょうか

たとえば,行が群(今の場合なら2群)の場合,そのような分割表が一番群の違いを鮮明に表すことができるからでしょう。言い換えれば,行の変数と列の変数の相関が最も高くなるように,もっとも非独立であるように。
この2つの分割表(あるいは可能性のあるもっと別の分割表)に対して,U検定(またはt検定)や独立性の検定(またはFisherの正確確率検定),相関係数を求めてみたりするとわかるのでは?

AICの利用については,坂本,石黒,北川の「情報量統計学」共立出版株式会社が最初のものだったかな。最適なヒストグラムを描くことについては記載があるが,k×l分割表の最適カテゴリー化については言及はないと思う。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る