No.04467 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【Mike】 2007/10/04(Thu) 15:36

手元に200個(大きさ200;行数200)の観測データがあり,その一部(n個)を用いて回帰モデルを構築した場合の予測精度が,用いたデータ数nにどのように依存するかを調べたいと考えています。
このような場合,次のような方法でよいのでしょうか?

200個のデータをランダムに,大きさn,200-nの2つの部分集合に分け,前者を用いて構築した回帰モデルで後者を予測する操作を,さまざまなnについて繰り返す。

不安な点は,nに応じて,予測されるデータ数(精度検証に用いられるデータ数)が変化してしまうことです。

何かコメントをいただければ幸いです。

No.04468 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【青木繁伸】 2007/10/04(Thu) 16:04

nはどのような範囲で設定するんでしょうか?
妥当性を検証するデータはどれくらい必要なんでしょうか?

たとえば,妥当性を検証するデータは必ず同じデータを使う(でないと,困ると思うんですが)としてまえもってたとえば100個を取っておく。

残りの100個からn個を取って回帰モデルを作り,取っておいた100個を予測するというのではいかが?

No.04480 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【Mike】 2007/10/05(Fri) 03:42

ご回答をいただきありがとうございます。
nについては,[20,100]の範囲で設定したいと考えております。

上 記の質問文では曖昧になってしまったのですが,私の目的は,回帰モデルの平均予測誤差のn依存性を調べることです。そのためには,「一部のデータを検証用 にとっておき,残りのデータからn個を抽出して構築した回帰モデルの誤差を評価する」操作を,各nについて1度でなく,多数回繰り返す必要があると思いま す。

ご教示いただいた方法を用いると,次のような計算を行えばよいということになるでしょうか?

I. 以下の(1)(2)を多数回繰り返す:
  (1)ランダムに100個の検証用データを選ぶ
 (2)各nについて,次の①②を行う
    ①残りのデータからn個をランダムに選び,回帰モデルを作る
    ②検証用データを用いて,回帰モデルの平均予測誤差を求める
II. 各nについて,平均予測誤差の平均を求める.

No.04482 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【青木繁伸】 2007/10/05(Fri) 10:51

それでいいんじゃないかと思います

nサンプルを取り出すときに復元抽出にするか非復元抽出にするかが問題になる科も知れませんが,非復元抽出にした方が良いですね(100から100近くを抽出するとき等は特に)

No.04491 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【Mike】 2007/10/05(Fri) 20:54

貴重なアドバイスをいただきありがとうございます。新しい方法を理解することができました。

ところで,私の最初の質問文の方法がもつ問題点が,まだはっきりと言葉で説明できません。

そ こで,上記の新しい方法(非復元抽出を用いるバージョン)と,私の最初の質問文の方法(「n個をランダムに取り出し,残りの200-n個を予測する」計算 を繰り返す)を比較する数値実験を行いました。回帰モデルは単回帰モデルを用い,予測誤差はMSEで評価しました。その結果,繰り返し回数が増えるにつ れ,両者による予測誤差の評価値は漸近的に等しくなることがわかりました。

繰り返し回数が小さいときは,特に小さいnについて,両方法の差が顕著に現れました。ただ,どちらが安定しているかは,場合によって異なるように見受けられました。

以上,ご報告申し上げます。

No.04492 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【青木繁伸】 2007/10/05(Fri) 21:23

あなたの最初のバージョンだと,
  nが小さいときは,検証するためのデータが多い
  nが大きいときは,検証するためのデータが少ない
nは変化させるのだから変わって当然
だからといって,「検証するためのデータがいつも違うというのは更に別の誤差を生み出す」←これが大問題
検証するためのデータがいつも同じであればその誤差は生じない
そう言うことだと思いますが?

万全を期すとすれば,検証するためのデータも何通りか選ぶとよいでしょう

n を色々変えて以下を行う {
  以下を a 回,行う {
    検証するためのデータ m 個を設定する
    以下を b 回 行う {
      200-m 個のデータから n 個を復元抽出して分析し,
      m 個のデータを予測してみて予測精度を記録する
    }
  }
}
n のそれぞれについて,a × b 個の結果がある

a,b は共に1000から10000くらい必要かな?

No.04582 Re: 回帰モデルの予測精度と回帰データサイズの関係を調べる方法  【Mike】 2007/10/25(Thu) 17:37

青木先生

お礼が遅れまして,申し訳ありません。
長い間,理解に苦しんでおりましたが,ようやく自分の方法の欠点と,ご提示頂いた方法の正しさを理解することができました。
a,bを現実的に1000まで上げることができないのですが,できるだけ増やして計算したいと思います。
ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る