★ 学習サンプルとテストサンプルについて ★

6181. 学習サンプルとテストサンプルについて 辰弥 2005/03/09 (水) 01:06
└6194. Re: 学習サンプルとテストサンプルについて 青木繁伸 2005/03/10 (木) 11:57
 ├6210. Re^2: 学習サンプルとテストサンプルについて 辰弥 2005/03/11 (金) 20:39
 │└6211. Re^3: 学習サンプルとテストサンプルについて 青木繁伸 2005/03/11 (金) 21:04
 │ └6220. Re^4: 学習サンプルとテストサンプルについて 辰弥 2005/03/12 (土) 06:53
 └6195. Re^2: 学習サンプルとテストサンプルについて 辰弥 2005/03/10 (木) 13:00


6181. 学習サンプルとテストサンプルについて 辰弥  2005/03/09 (水) 01:06
はじめまして,判別分析を用いていくつかのサンプルを学習し,別のテストデータについてどの程度の識別が可能かということを行いたいと思っているのですが,ムハラノビス距離のところでつまづいています。
 テストデータとそれぞれの群の重心とのムハラノビス距離を求めてやり,その距離が最も短いものに属すると認識するというところで,http://aoki2.si.gunmau.ac.jp/lecture/Discriminant/index.html 
の 例題をBlack-BOXの判別分析を用いると,ケース1と,第一群の重心とのムハラノビス距離の2乗値が0.36になるのですが,それまでの過程がどう してもわかりません。第一群のデータだけをJava Scriptのソース79を用いて計算すると,まったく違ったムハラノビス距離が出てきます。自分な りに考えると,多分判別分析によって写像された空間においてムハラノビス距離を求めるのだろうとは考察してみたのですが,どうしてもこの0.36という数 字が出てきません。この数字がでるまでの過程を教えていただきたいです!

     [このページのトップへ]


6194. Re: 学習サンプルとテストサンプルについて 青木繁伸  2005/03/10 (木) 11:57
引用されている URL が間違えていますので,以下では修正しておきます。

> http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/index.html 
> の例題をBlack-BOXの判別分析を用いると,ケース1と,第一群の重心とのムハラノビス距離の2乗値が0.36になるのですが,それまでの過程がどうしてもわかりません。

http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc2.html
は,ごらんになりましたか?
両群のデータからプールした分散共分散行列を求めて,それを使うのです。

また,そのページからリンクを張っている
http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/mahalanobis.html
も,ごらんください。

Java Scriptのソース79 は,基準データが一つしかないときの応用例です。二群の場合のプールした分散共分散行列を求めた後の話に相当します。

     [このページのトップへ]


6210. Re^2: 学習サンプルとテストサンプルについて 辰弥  2005/03/11 (金) 20:39
たびたび失礼します。
判別分析の例題の問題は両群の分散・共分散の異なる場合の識別の問題だと思うのですが,
・プールした分散・共分散を用いてマハラノビス距離を求めて,近い方のクラスに属するとして認識をする場合(Bklak Box 使用)
      12個中9個正解

・各群の分散・共分散を用いて,それぞれの群の平均値とのムハラノビス距離の近いほうとして認識する場合の判別率 
      12個中9個正解(誤認識場所は上と異なった)

・普通に座標上での平均値までの距離で近いほうのクラスに属するとして認識した場合
      12個中11個正解

と,なる気がするのですが,ここまではあっているでしょうか?普通にはかったものが一番認識が高いのが変な感じがしたのですが,,,

     [このページのトップへ]


6211. Re^3: 学習サンプルとテストサンプルについて 青木繁伸  2005/03/11 (金) 21:04
分散共分散が等しいと仮定するのが,いわゆる線形判別関数。
等しくないとするのが,二次の判別関数(BlackBox にもあります)。
単純にユークリッド距離を計算して,それが一番判別率が良かったというのは,たまたま。だって,多変量正規分布は「仮定する」ものだから,たまたまあるデータはユークリッド距離で判別するのがよかっただけ。
いつもそうなのではありません。だって,そんなら,複雑な計算,だれもやらないでしょう。

     [このページのトップへ]


6220. Re^4: 学習サンプルとテストサンプルについて 辰弥  2005/03/12 (土) 06:53
御返信ありがとうございます。よく理解しました。
> 単純にユークリッド距離を計算して,それが一番判別率が良かったというのは,たまたま。だって,多変量正規分布は「仮定する」ものだから,たまたまあるデータはユークリッド距離で判別するのがよかっただけ。

場合によってはこういう可能性もあるということがわかってよかったです。

あと「Black Box」のつづりが間違えていたのでここで訂正させてもらいます。さらに2つ目の条件のものが12個中9個正解と書いてしまいましたが,12個中10個正解の間違いでした。失礼しました。
青木様,本当にいつもありがとうございます!

     [このページのトップへ]


6195. Re^2: 学習サンプルとテストサンプルについて 辰弥  2005/03/10 (木) 13:00
青木様,返信ありがとうございます。プールした分散・共分散行列というものを理解できていなかったようです。もう一度検討してみます!ありがとうございました!

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 033 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る