★ 一般化線形回帰におけるモデルの精度比較 ★

1917. 一般化線形回帰におけるモデルの精度比較 井上@九州 2004/01/20 (火) 19:18
└1937. Re: 一般化線形回帰におけるモデルの精度比較 sb812109 2004/01/21 (水) 18:44
 └1946. Re^2: 一般化線形回帰におけるモデルの精度比較 井上@九州 2004/01/22 (木) 00:29
  ├1954. Re^3: 一般化線形回帰におけるモデルの精度比較 青木繁伸 2004/01/22 (木) 10:29
  │└1956. Re^4: 一般化線形回帰におけるモデルの精度比較 井上@九州 2004/01/22 (木) 12:47
  └1950. Re^3: 一般化線形回帰におけるモデルの精度比較 sb812109 2004/01/22 (木) 10:17
   └1957. Re^4: 一般化線形回帰におけるモデルの精度比較 井上@九州 2004/01/22 (木) 14:00


1917. 一般化線形回帰におけるモデルの精度比較 井上@九州  2004/01/20 (火) 19:18
一般化線形回帰で複数のモデルを構築しました(モデル属はポアソン)。
そこで,モデルの精度を比較(採択される独立変数が変化することによって,モデルの精度が向上するか否か)しようと思うのですが,独立変数の数が同数のため,χ2乗検定による分散分析が行えません。
1.この場合,AICのみでモデルを比較しても良いのでしょうか。
2.モデルから予測される値と実測値の相関係数から決定係数(?)を算出して考えても良いのでしょうか。

     [このページのトップへ]


1937. Re: 一般化線形回帰におけるモデルの精度比較 sb812109  2004/01/21 (水) 18:44
> 独立変数の数が同数のため,χ2乗検定による分散分析が行えません。

?

> 1.この場合,AICのみでモデルを比較しても良いのでしょうか。
> 2.モデルから予測される値と実測値の相関係数から決定係数(?)を算出して考えても良いのでしょうか。

決定係数を評価の基準とした場合,説明変数の多い,複雑なモデルほど,いいモデルとなってしまうのでは,ないでしょうか?
モデルの評価としては,AICの方がいいと思います。

ただし,解析の目的が”予測”にあるのであれば,現行のモデル構築用のデータで当てはまりがいいモデルが,未知のデータに対しては,必ずしもいいモデルとは限りません(overfittingがありえる)ので,注意が必要だと思います。

     [このページのトップへ]


1946. Re^2: 一般化線形回帰におけるモデルの精度比較 井上@九州  2004/01/22 (木) 00:29
回答ありがとうございます。

> > 独立変数の数が同数のため,χ2乗検定による分散分析が行えません。
>
> ?

説明不足でした。
従属変数Yを独立変数X1,X2,X3で説明できないかと思い,一般化線形回帰を行いました。
この時,”独立変数の中でも,特にX1がYを説明する際に重要である”いうことを言いたかったため,
(1)Y=X1+X2+X3
(2)Y=X1*(X2+X3)
というように,X1を加法でモデルに組み込む場合と,乗法で組み込む場合を考えました。(上記の式では回帰係数は省略しています)

その後,それぞれステップワイズにより変数選択して,anovaを行おうと考えていたのですが,ステップワイズを行った時点で,各モデルに含まれる変数の数が同じになってしまったのです。

> 決定係数を評価の基準とした場合,説明変数の多い,複雑なモデルほど,いいモデルとなってしまうのでは,ないでしょうか?
> モデルの評価としては,AICの方がいいと思います。
>
> ただし,解析の目的が”予測”にあるのであれば,現行のモデル構築用のデータで当てはまりがいいモデルが,未知のデータに対しては,必ずしもいいモデルとは限りません(overfittingがありえる)ので,注意が必要だと思います。

ありがとうございます。勉強になりました。
今回は上述の通り,”Yを説明する際にX1を考慮することが必要である”ということを言いたかったので,AICで評価したいと思います。

加えて質問があります。
複数モデル間の評価は,AICで考えることは分かりました。
ただこの場合,比較したモデルの中で,どれが最も精度が良いモデルかということは明らかになると思いますが,そのモデルが実際にどのくらい当てはまっているのかということは分からないと思います。
つまり,モデルの当てはまり具合を知りたい時は,どのような方法をとればよいのでしょうか。
よろしくお願いいたします。

     [このページのトップへ]


1954. Re^3: 一般化線形回帰におけるモデルの精度比較 青木繁伸  2004/01/22 (木) 10:29
> (1)Y=X1+X2+X3
> (2)Y=X1*(X2+X3)

(2) の式が X1 の重要性をより表した式であるかどうかは非常に疑問です。(2) の式は(1)とはまるで違うもので,実際のデータ発生機序がどちらであるかわかっているならともかく,そうでない限り(2)とは断定できないでしょう。たとえば,
(3) (X2+X3)^X1
の方がより X1 を重視しているのではないかといわれても,反論するすべがないかもしれませんよね。

     [このページのトップへ]


1956. Re^4: 一般化線形回帰におけるモデルの精度比較 井上@九州  2004/01/22 (木) 12:47
> (2) の式が X1 の重要性をより表した式であるかどうかは非常に疑問です。(2) の式は(1)とはまるで違うもので,実際のデータ発生機序がどちらであるかわかっているならともかく,そうでない限り(2)とは断定できないでしょう。

なるほど,おっしゃる通りです。
データの発生機序を考えるという,大切なことを無視していました。

     [このページのトップへ]


1950. Re^3: 一般化線形回帰におけるモデルの精度比較 sb812109  2004/01/22 (木) 10:17
>”Yを説明する際にX1を考慮することが必要である”

(1)ステップワイズ法で求めたモデルにX1が含まれていたら,少なくとも統計学的根拠からは,X1は重要な因子となるのではないでしょうか?それ以上,何かをする必要はないと思いますが。ただし,ステップワイズ法をもちいることが適切か否かは問わないとして,,,。

(2)手動で最適と思われるモデルをX1を入れて構築する。これをモデル1とする。次に,X1を除いたものをモデル2とする。モデル1とモデル2の尤度比検定を行い,モデル1がモデル2を有意に改善していれば,X1は,重要な因子となる。

(3)手動で最適と思われるモデルをX1を入れて構築する。X1のWald統計量が統計学的に有意であれば,X1は重要な因子。

> 比較したモデルの中で,どれが最も精度が良いモデルかということは明らかになると思いますが,そのモデルが実際にどのくらい当てはまっているのかということは分からないと思います。

逆だと思います。あるいは用語の使い方が私とあなたとは逆なのかもしれませんが。精度とは,私は,未知のデータに対する予測精度の意味で使っています。また,当てはまりとは,現行データへの当てはまりの意味で使っています。
現行データへの当てはまりのよさは,ある程度判りますが,未知のデータに対して,どのモデルが予測精度がいいかは,判るのは,難しいと思います。(詳しくは,The Elements of Statistical Learning:第7章,Model Assessment and Selectionを参照)。

     [このページのトップへ]


1957. Re^4: 一般化線形回帰におけるモデルの精度比較 井上@九州  2004/01/22 (木) 14:00
回答ありがとうございます。

> (2)手動で最適と思われるモデルをX1を入れて構築する。これをモデル1とする。次に,X1を除いたものをモデル2とする。モデル1とモデル2の尤度比検定を行い,モデル1がモデル2を有意に改善していれば,X1は,重要な因子となる。
>
> (3)手動で最適と思われるモデルをX1を入れて構築する。X1のWald統計量が統計学的に有意であれば,X1は重要な因子。

知識不足で申し訳ありません。
(的はずれな質問かも知れませんが)
尤度比検定やWald統計量という言葉を,ロジスティック回帰で見たことはあるのですが,今回の場合(モデル属=ポアソンのglm)でも,計算してよろしいのでしょうか。

> 精度とは,私は,未知のデータに対する予測精度の意味で使っています。また,当てはまりとは,現行データへの当てはまりの意味で使っています。

sb812109様の言うとおりだと思います。恥ずかしながら,今までそのような違いを考えずに"精度"と"当てはまり"を使っていました。
これからは両者を混同せずに使えそうです。

> 現行データへの当てはまりのよさは,ある程度判りますが,未知のデータに対して,どのモデルが予測精度がいいかは,判るのは,難しいと思います。(詳しくは,The Elements of Statistical Learning:第7章,Model Assessment and Selectionを参照)。
ありがとうございます。
早速調べてみます。

度々質問していますが,よろしくお願いします。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 027 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る