No.13922 AICの差に意味はあるか  【とらのすけ】 2010/12/06(Mon) 16:31

赤池情報量基準(AIC)の差に意味はあるでしょうか.
煩雑であることを恐れながら具体的に例を書かせていただきますと...
今,AモデルとBモデルがあり,ア種とイ種について得たデータを当てはめ,それぞれAICを計算しました.
ア種でのAICはAモデルでは100,Bモデルでは10,その差は90.
イ種でのAICはAモデルでは1000,Bモデルでは10,その差は990.
この結果から,「ア種よりもAICの差が大きいイ種の方が,AモデルよりもBモデルを強くマシなモデルとしているようだ」と言ってよいのでしょうか.
AICの値がより小さい方がよりマシなモデルである,という記述は見ますが,その差の大きさについては,思うような記述が見つからず,質問させていただきました.よろしくお願いたします.

No.13934 Re: AICの差に意味はあるか  【Sai】 2010/12/07(Tue) 00:39

応答変数が異なる場合は,AICを比較してはいけなかったように思います。
例えば
ア種のモデルが,Y1=a + bX1
イ種のモデルが,Y2=a + bX1
という風だとします。つまり応答変数は違っているが独立変数が同じ,というような場合だとします。このとき独立変数が同じでもYの値が異なるのであればAICの値を比べることに意味はないのでは。比べて良いのは,
Y1=a + bX1
Y1=a + bX1 + cZ
という風な,同一のYに対する最良モデルを選ぶときだと思います。

No.13966 Re: AICの差に意味はあるか  【とらのすけ】 2010/12/13(Mon) 13:34

前回の書き方が未熟で,意味が伝わらず,失礼しました.
書き改めさせていただきます.
Saiさんの例にある式を使わせていただきます.
さらにさらに煩雑になるのですが,すみません.
どうぞ,よろしくお願いいたします.

Aモデル: Y=a + bX
Bモデル: Y=a + bX + cZ

ア種について
Aモデル: Y1=a + bX1,これから得られたAICの値はAIC1A=100
Bモデル: Y1=a + bX1 + cZ1,これから得られたAICの値はAIC1B=10
AモデルとBモデルのAICの差: AICdev1=AIC1A-AIC1B=90

イ種について
Aモデル: Y2=a + bX2,これから得られたAICの値はAIC2A=1000
Bモデル: Y2=a + bX2 + cZ2,これから得られたAICの値はAIC2B=10
AモデルとBモデルのAICの差: AICdev2=AIC2A-AIC2B=990

結果1.AIC1A>AIC1B,AIC2A>AIC2Bであるので,ア種もイ種もBモデルをより良いモデルとする.
結果2.AICdev1 < AICdev2であるので,ア種よりも大きいイ種の方が,AモデルよりもBモデルをより強く「より良い」モデルとしている.

結果1についての記述はよく見るのですが,結果2のように言ってよいとする記述,教科書その他を探しあぐねています.結果2のような解釈は間違っているのかどうかについて,どうぞお教えください.
なお,「2つのモデルが階層関係になければ,それらのAICの差は,漸近的に平均0の正規分布によって比較的よく近似される」ことを利用したLinhartのAIC有意差検定(Linhart 1988)なるものが提案されているのですね...

No.13967 Re: AICの差に意味はあるか  【Sai】 2010/12/13(Mon) 16:30

そのようなことを書いた文献は知りませんが,たぶんダメではないでしょうか。例えば種ごとにデータ数が違っていたら全然尤度は変わってきますし。試しにシミュレーションしてみました。
> set.seed(1)
> func <- function(a, b, sigma, n, x) {
+ return(a + b*x + rnorm(n, 0, sigma))
+ }
> ###サンプル数100###
> n <- 100
> x <- seq(1, n)
> sigma <- 2
> a <- 1
> b <- 3
> y <- func(a=a, b=b, sigma=sigma, n=n, x=x)
> summary(glm(y~1))$aic - summary(glm(y~x))$aic
[1] 774.1078
>
> ###サンプル数1000###
> n <- 1000
> x <- seq(1, n)
> y <- func(a=a, b=b, sigma=sigma, n=n, x=x)
> summary(glm(y~1))$aic - summary(glm(y~x))$aic
[1] 12050.16
まったく同じ傾きと切片だったとしても,データ数が違うだけでAICの差の値が変わります。結果2は言えないと思います。

No.14118 Re: AICの差に意味はあるか  【とらのすけ】 2011/01/06(Thu) 11:20

ご返答を本当にありがとうございます.
時が経ってしまいましたが,再度ヒントをいただきたいと思います.
データ数が違うだけでAICの差が異なることの問題点を指摘いただきましたが,それでは,データ数が同じであれば結果2を主張していいでしょうか.

No.14119 Re: AICの差に意味はあるか  【青木繁伸】 2011/01/06(Thu) 12:05

> それでは,データ数が同じであれば結果2を主張していいでしょうか.

単純に数だけが同じではだめでしょう。
一つのデータセットに対して立てられた複数のモデルの比較をすべきもの。
同じデータセットであっても,モデルによって採用される変数がことなることにより欠損値の有無が生じた場合(データ数が異なることにもなるが)でも,比較する際には慎重であるべしとか言われるわけです。

No.14225 Re: AICの差に意味はあるか  【とらのすけ】 2011/01/26(Wed) 02:39

ご返信を大変ありがとうございました!
「一つのデータセットに対して立てられた複数のモデルの比較をすべきもの」という,本来の使用方法に立ち戻ります.

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る