No.03492 Re: AICによるクロス表のカテゴリ分け 【青木繁伸】 2007/05/29(Tue) 09:20
> 「数量化理論とデータ処理」
著者,出版社は?
No.03509 Re: AICによるクロス表のカテゴリ分け 【青木繁伸】 2007/05/30(Wed) 00:21
調べれば分かるって
駒澤勉(1986).『数量化理論とデータ処理』朝倉書店
で,微妙な思い違いがあるように思うんですけど。実際のデータについて,計算してみれば,言わんとしているところは分かると思うんですけど。どうでしょうか?
No.03513 Re: AICによるクロス表のカテゴリ分け 【bootstrap】 2007/05/30(Wed) 09:43
長文になってしまいますが,少し具体的に書かせてください.
アイテム(Xj,Xu)に関するクロス集計表として,(a),(b)の2つの候補があるとします.アイテム同士が独立であると仮定した情報量AIC(M0)と非独立であるとしたAIC(M1)を計算し,その大小を比較します.(以下を参照)cross(a)独立である方がもちろん最良なのですが,非独立であるこれらのうち,データ解析に適切なものはどちらか?というのが問題です.
| Cu1 Cu2 Cu3 |SUM
----|-------------|----
Cj1 | 5 12 12 | 29
Cj2 | 8 12 3 | 23
----|-------------|----
SUM | 13 24 15 | 52
AIC(M0)=-2(5ln(13*29/52^2)+12ln(24*29/52^2)+12ln(15*29/52^2)
+8ln(13*23/52^2)+12ln(24*23/52^2)+ 3ln(15*23/52^2))
+2(2+3-2)
=187.8
AIC(M1)=-2(5ln(5/52)+12ln(12/52)+12ln(12/52)
+8ln(8/52)+12ln(12/52)+ 3ln( 3/52))
+2(2*3-1)
=186.1
AIC(M1)-AIC(M0)=-1.7 <0 であるから,非独立
cross(b)
| Cu1 Cu2 Cu3 |SUM
----|-------------|-----
Cj1 | 1 12 16 | 29
Cj2 | 3 16 4 | 23
----|-------------|-----
SUM | 4 28 20 | 52
AIC(M0)=-2(1ln(4*29/52^2)+12ln(28*29/52^2)+16ln(20*29/52^2)
+3ln(4*23/52^2)+16ln(28*23/52^2)+ 4ln(20*23/52^2))
+2(2+3-2)
=170.8
AIC(M1)=-2(1ln(1/52)+12ln(12/52)+16ln(16/52)
+3ln(3/52)+16ln(16/52)+ 4ln( 4/52))
+2(2*3-1)
=166.2
AIC(M1)-AIC(M0)=-4.6 <0 であるから,非独立
この問題に対し,先の本にはAIC(M1)-AIC(M0)の差が最小の(b)のクロス表の方が良い,と書かれているのですが,何故でしょうか?
差の正負が独立・非独立を決定することはわかりますが,差の大小を比較する意味は何なのか?よくわかりません.
AICを用いたクロス集計表の作成について書かれている本などはあるのでしょうか?
No.03515 Re: AICによるクロス表のカテゴリ分け 【青木繁伸】 2007/05/30(Wed) 10:33
> AIC(M1)-AIC(M0)の差が最小の(b)のクラス表の方が良い,と書かれているのですが,何故でしょうか
たとえば,行が群(今の場合なら2群)の場合,そのような分割表が一番群の違いを鮮明に表すことができるからでしょう。言い換えれば,行の変数と列の変数の相関が最も高くなるように,もっとも非独立であるように。
この2つの分割表(あるいは可能性のあるもっと別の分割表)に対して,U検定(またはt検定)や独立性の検定(またはFisherの正確確率検定),相関係数を求めてみたりするとわかるのでは?
AICの利用については,坂本,石黒,北川の「情報量統計学」共立出版株式会社が最初のものだったかな。最適なヒストグラムを描くことについては記載があるが,k×l分割表の最適カテゴリー化については言及はないと思う。
● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る