★ AICの導出について ★

 233 AICの導出について  すわ けい  2003/01/30 (木) 22:02
  236 Re: AICの導出について  竹澤  2003/01/31 (金) 08:53
   237 Re^2: AICの導出について(もう一息と思うのですが...)  すわ けい  2003/01/31 (金) 14:09
    238 Re^3: AICの導出について(もう一息...続き)  すわ けい  2003/01/31 (金) 14:11
     239 Re^4: AICの導出について(...ここまで)  すわ けい  2003/01/31 (金) 14:13
      240 Re^5: AICの導出について(...ここまで)  竹澤  2003/01/31 (金) 16:41
       243 AICとは...?  すわ けい  2003/01/31 (金) 20:27
        250 Re: AICとは...?  竹澤  2003/02/01 (土) 11:33
         252 Re^2: AICとは...?  すわ けい  2003/02/02 (日) 18:19


233. AICの導出について  すわ けい  2003/01/30 (木) 22:02
初の投稿です。googleで知りました。AICの導出について教えてください。
下記のページにAICの導出があるのですが,分からないことがあります。
申し訳ないのですが,下記は同ページを参照の上で書かせていただきます。

http://acad.uis.edu/sas/iml/chap10/sect6.htm

このページによると,AIC は下記 2. の-2倍で定義されて, -2l(th_K) + 2K
が導かれています。ところが 1. で同様に定義しようとすると -2l(th_K) + K
となります。

自分には(その値は未知だが)真のパラメータth^0における尤度の値を最小化する
のが(つまり1.を使うほうが)良いような気がするのですが,なぜ,パラメータの
推定値th_Kにおける尤度の期待値を用いねばならないのでしょうか?

1. l^*(th^0) "expected log likelihood function
at the true parameter th^0 "
2. l^*(K) "mean expected log likelihood
at the estimated parameter th"

どこか根本的に分かってないのだと思うのですが,わかりません。
大変お手数をおかけする質問なのですが,suggestion をお願いします。

     [このページのトップへ]


236. Re: AICの導出について  竹澤  2003/01/31 (金) 08:53
 竹澤(中央農業総合研究センター・農業情報研究部)です。

 実際に得られるパラメータは,手持ちの有限個のデータから
得られたものです。その統計量が,将来のデータに対して
どのくらいうまく機能するかを予測する,というのが
AICの意味です。真のパラメータは,無限個のデータがないと
得られません。ですから,真のパラメータが将来のデータに対して
どのくらいうまく機能するかを予測してもあまり意味がないわけです。

     [このページのトップへ]


237. Re^2: AICの導出について(もう一息と思うのですが...)  すわ けい  2003/01/31 (金) 14:09
竹澤さん.ご回答ありがとうございます.お答えを見て,考え直してみた
のですが,あと一息という感じです.もう少しお付き合いお願いします.

> その統計量が,将来のデータに対してどのくらいうまく機能するかを
> 予測する,というのがAICの意味です。
多分,私はここでちょっとコケているようです.

> ですから,真のパラメータが将来のデータに対してどのくらいうまく
> 機能するかを予測してもあまり意味がないわけです。
よって,ここもなんとなく分かった気がしますが,怪しいです.
次のように考えて,一つ疑問が湧きました.最初の疑問とはポイントが
変わりますが,外堀から埋めるつもりで質問いたします.
(長いので次に続く...すみません)

     [このページのトップへ]


238. Re^3: AICの導出について(もう一息...続き)  すわ けい  2003/01/31 (金) 14:11
1. 仮定した分布モデル `f(Z|th)' と,手持ちの有限個のデータから
得られたパラメータ `th_K' とから, log likelihood function
`l(th_K)' が計算できる.(Kは自由度)
# 自由度Kを上げればいくらでも`l(th_K)'を大きくできるので,
# `l(th_K)' を,そのままモデルのフィットの良さの指標として
# はイケナイというのは(多分)分かる.

2. 上記の統計量 `l(th_K)' と,自由度Kと,expected log likelihood
`l^*(th)' の 真のパラメータ `th^0' における値は,漸近的に次式
を満たす.

l^*(th^0) = Expect{l(th_K)} - K/2 ...(1)

3. 仮に,今仮定している分布モデルが真の分布と一致していたら,
手持ちの有限個のデータから得られたパラメータ `th_K' における
expected log likelihood `l^*(th_K)' の期待値は,真の最大値
'l^*(th^0)' を用いて次式のように表すことができる.

Expect{l^*(th_K)} = l^*(th^0) - K/2 ...(2)

     [このページのトップへ]


239. Re^4: AICの導出について(...ここまで)  すわ けい  2003/01/31 (金) 14:13
4. 式(1) を 式(2) に代入して次式を得る.

Expect{l^*(th_K)} = Expect{l(th_K)} - K

実際得られるデータセットは一組なので,

Expect{l^*(th_K)} = l(th_K) - K ...(3)

# 式(3) の-2倍が AIC に他ならない.

5. ここで疑問です.
式(3)を見ると,仮定しているモデルが真の分布に一致していたら,
大きな値をとるであろうことは予想できますが,一致したときに
「最大値」をとるという保証はされないような気がします.
どう考えれば良いのでしょうか.

長々と申し訳ございません.良く分かってないので,コンパクトに
まとめられませんでした.ご容赦願うと共に,よろしくお願いします.

     [このページのトップへ]


240. Re^5: AICの導出について(...ここまで)  竹澤  2003/01/31 (金) 16:41
 竹澤(中央農業総合研究センター・農業情報研究部)です。

 「仮定しているモデル」というのは,手持ちのデータを
使って作成したモデル,という意味でしょうか。もし,
そうであれば,確かに,手持ちのデータを使ってモデルを
作成したらたまたま真の分布が得られる,ということは
あり得ます。しかし,その場合は,AICがうまく機能しない
ことになります。
 なぜかと言いますと,AICというのは,手持ちのデータを使って
導出したモデルの同じデータに対する予測と真の分布を使った
場合の予測とでは予測能力がどのくらい違うか,手持ちのデータを
使って導出したモデルによる新たなデータに対する予測と
真の分布による新たなデータに対する予測では予測能力は
どのくらい違うか,という両者の効果を加味すると,
手持ちのデータが将来のデータに対してどのくらい有効かが
推定できる,という発想に基づいているからです。
 手持ちのデータを使って求めたモデルが真のモデルに一致する
こともあれば,かなり隔たったいることもある,それらの
平均的な場合についてのモデルの予測能力を推定するのが
AICなので,極端な偶然に見舞われた場合には優れた統計量
にはなりません。

     [このページのトップへ]


243. AICとは...?  すわ けい  2003/01/31 (金) 20:27
ご回答ありがとうございます。
>  「仮定しているモデル」というのは,手持ちのデータを
> 使って作成したモデル,という意味でしょうか。
ちょっと違います。例えば,センター試験の得点分布の形を調べる場合
を考えます。とりあえず正規分布,ガンマ分布,ワイブル分布,K分布
という4つのモデルを仮定してどれが適合するか試すことにします。こ
の場合,これら4つが「仮定しているモデル」であって,モデルを仮定
する時点で手持ちのデータは関係ないです。 AICを使って判定する手順
は,以下のようになると思います。
1) 4つの分布のPDFから対数尤度関数をそれぞれ導出 L_i(th)(i=1,..,4)
2) AICの関数をそれぞれ導出 AIC_i = -2L_i(th)+2K_i (i=1,2,3,4)
3) 2002年度のセンター試験の得点データから平均や分散など必要な
統計量を計算
4) 3)で得られた統計量と,得点データとを,2)で得られたAICの関数の
パラメータに代入してargmin{AIC_i}を見つける。
 -> 最もデータに適合する分布形状がわかる。
AICとは複数個仮定しているモデルのうち,真の分布に近いものを教えて
くれるものだと思っていたのですが,竹澤さんのお話と頭の中で整合が
とれません。一晩考えます。

     [このページのトップへ]


250. Re: AICとは...?  竹澤  2003/02/01 (土) 11:33
 竹澤(中央農業総合研究センター・農業情報研究部)です。

>1) 4つの分布のPDFから対数尤度関数をそれぞれ導出
> L_i(th)(i=1,..,4)
>2) AICの関数をそれぞれ導出 AIC_i = -2L_i(th)
>+2K_i (i=1,2,3,4)
>3) 2002年度のセンター試験の得点データから平均や
>分散など必要な統計量を計算
>4) 3)で得られた統計量と,得点データとを,2)で
>得られたAICの関数のパラメータに代入して
>argmin{AIC_i}を見つける。

 通常のAICの使い方は,上の1)2)を行って,最小の
AICを与える分布を4つのうちから選択する,という
ものです。3)4)は,御自分で考え出されたのでしょうか。
それとも何かの文献に載っているのでしょうか。

>AICとは複数個仮定しているモデルのうち,真の分布に
>近いものを教えてくれるものだと思っていたのですが,

 AICは真の分布に近いものを選択する,という
説明は,間違いとは言えないと思いますが,AICは
有益なモデルを選択する,と理解した方が
適切だと思います。センター試験の例では,同じ
受験生が同じくらいの難易度の試験をもう一度受けた
ときの得点にあてはまりがいいと期待できる分布を
4つの中から選択するわけです。

     [このページのトップへ]


252. Re^2: AICとは...?  すわ けい  2003/02/02 (日) 18:19
>  通常のAICの使い方は,上の1)2)を行って,最小の
> AICを与える分布を4つのうちから選択する,という
> ものです。3)4)は,御自分で考え出されたのでしょうか。
> それとも何かの文献に載っているのでしょうか。
書き方が悪かったような気もしますが,1)2)の時点では,
関数の形が導かれただけで値が計算されていません。
3)4)があって初めてAIC_i(i=1,2,3,4)が計算されるという
つもりでした。

>  AICは真の分布に近いものを選択する,という
> 説明は,間違いとは言えないと思いますが,AICは
> 有益なモデルを選択する,と理解した方が
> 適切だと思います。センター試験の例では,同じ
> 受験生が同じくらいの難易度の試験をもう一度受けた
> ときの得点にあてはまりがいいと期待できる分布を
> 4つの中から選択するわけです。
なるほど。だから予測ということになるのですね。
ありがとうございました。ワケワカラン質問にお付き合い
いただき感謝します。お蔭様でだいぶ感触がつかめましたので,
行けると思います。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 023 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る