No.20747 交差検証における特長量の扱いについて  【ベスト】 2014/01/20(Mon) 17:22

お世話になります。

判別分析において2群で差のある特徴量をt検定で求め,その特徴量を用いて Leave-one-out-cross-validation(LOOCV)を行いたいのですが,(n-1)検体の学習セットと1検体のテストセットに 分ける前に差のある特徴量を抽出すると,未知のテストセットを含んだ状態で特徴量を抽出したことになるので不適切だという論文を読みました。

その論文によると(n-1)検体の学習セットと1検体のテストセットに分割するたびに
学 習セット内の2群に差のある特徴量を抽出し,テストセットを判別する操作を繰り返して評価するとのことなのですが,1検体を抜いたことによって学習セット で抽出される要素の種類や順位が変動するため,最終的に得られた判別精度が,どの特徴量を用いて算出されたものとすればよいのか悩んでいます。

お手数ですが,御助言をお願いします。

No.20753 Re: 交差検証における特長量の扱いについて  【青木繁伸】 2014/01/20(Mon) 21:55

その論文とやらの書誌情報なり URL などを書けば議論のベースになると思いますが。
基本的に言えば,「1検体を抜いたことによって学習セットで抽出される要素の種類や順位が変動する」などという状況は,サンプルサイズが小さすぎるのではないでしょうか。そのような状況では,議論が難しいのではないでしょうかね???

No.20755 Re: 交差検証における特長量の扱いについて  【ベスト】 2014/01/21(Tue) 08:08

>青木教授
論文は以下のものです。私は生物系の研究をしておりまして,サンプルサイズを大きくするのは難しいです。
http://jnci.oxfordjournals.org/content/99/2/147.full
Fig.2B です。

LOOCVは一般的に行われていると思うのですが,あまりこういう話を聞いたことがないので,あまり気にせずに機械的に計算すればよいのでしょうか。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る