No.04290 交差確認法によるモデル選択と予測精度評価について  【hyman】 2007/08/30(Thu) 10:57

現在,セミパラメトリック回帰を勉強している大学院生です.よろしくお願いいたします.

セミパラメトリッ ク回帰やスプライン平滑化を行う際に,CV(交差確認得点)やGCV(一般化交差確認得点)の最小化によって,平滑化パラメータの選択などを行う手法があ るようです(例えば,Rのmgcvライブラリのgam関数).CVやGCVは,通常は平均2乗誤差(MSE)の推定量になると思うのですが,これらを最小 化することによってモデルの平滑化パラメータを求めた場合,最小化されたCVやGCVを,新しいデータに対する予測誤差の推定量と考えてよいのでしょう か?

一般的に,「モデルの構築に使ったデータでモデルの精度を検証した場合,誤差を過小評価する」と言われますが,最小化したCVや GCVを予測誤差の推定量とすることが,その場合に相当するのかどうか,悩んでおります.私の考えでは,過剰適合(overfitting)が生じている 場合は,最小化されたGCVやCVは,実際のMSEより小さな値になる傾向があるのではないかと思います.

なお,Rのmgcvライブラリ で,この問題を確かめるための数値実験をしました.具体例として,適当なx,yのデータを生成して,平滑化スプラインモデル y = s(x) + ε の推定を行いました.さらに得られたモデルについて,GCV, CV, MSEを計算し,比較しました(MSEは,回帰に用いていない検証用のx,yデータを用いて計算しました).結果,GCV, CV, MSEは近い値になることもありますが,値が大きく乖離することが多く,CVやMSEに比べてGCVが小さい場合が多いという結果になりました.とくに MSEがCVより大きいという傾向はありませんでした.ただこの数値実験では,節点数の設定によって結果が大きく異なるという事実が確認されており,あま り信用できないと考えております.

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る