★ スレットスコアと判別式 ★

 227 スレットスコアと判別式  門脇隆志  1999/12/09 (木) 04:24
  230 Re: スレットスコアと判別式  青木繁伸  1999/12/09 (木) 10:09
   235 Re^2: スレットスコアと判別式  門脇隆志  1999/12/10 (金) 00:17
    236 Re^3: スレットスコアと判別式  マンボウ  1999/12/10 (金) 01:49
     239 Re^4: スレットスコアと判別式  ただもの  1999/12/11 (土) 23:09
      241 Re^5: スレットスコアと判別式  マンボウ  1999/12/11 (土) 23:40
       242 Re^6: スレットスコアと判別式  ただもの  1999/12/12 (日) 00:14
      240 ところで実は非線形の嵐なのです  ただもの  1999/12/11 (土) 23:10
  229 Re: スレットスコアと判別式  堀 啓造  1999/12/09 (木) 05:16
   234 Re^2: スレットスコアと判別式  門脇隆志  1999/12/10 (金) 00:00


227. スレットスコアと判別式  門脇隆志  1999/12/09 (木) 04:24
かなり低レベルの質問になると思いますが,ご教授いただけると幸いです。

私は今,発言回数の少ない現象を予測する手法を探し求めています。こうした現象では,あまりにも「現象:無し」の事例が多いので,常に「無し」と予測すれば,スコア自体はかなり良いものになります。しかし,多少スコアを落としても,数少ない発言事例を「有り」と予測することに意義を見いだす場合もあります。

発言回数の少ない現象に対する予測精度には,「予測:なし,現象:なし」を評価対象から省いた「スレットスコア」と呼ぶものを用いることが多いと聞いおります。

さて,こうした現象について,初等的な教科書などを参考に重回帰式による判別を試みたのですが,スコアも良くないですし,分布図を眺めても「どうしてこんな式を作ったの?」と聞きたくなるような結果を目にすることが多々あります。

原因として,判別式を求める際に,「予測:無し,実例:なし」と「予測:あり,実例:あり」を同等に評価していることに原因があると思うのですが,「スレットスコア」を最も高くするように最適化する判別の手法について記載されている文献などございましたらご教授いただけないものでしょうか。

     [このページのトップへ]


230. Re: スレットスコアと判別式  青木繁伸  1999/12/09 (木) 10:09
> さて,こうした現象について,初等的な教科書などを参考に重回帰式による判別を試みたのですが,スコアも良くないですし,分布図を眺めても「どうしてこんな式を作ったの?」と聞きたくなるような結果を目にすることが多々あります。

どのような分野での予測かよくわかりませんが,発現頻度の低い事象の予測には単純な重回帰分析(線形重回帰分析)ではうまく行かないと思います。

化学物質の濃度による発癌率の予測式については
http://aoki2.si.gunma-u.ac.jp/RiskAssessment/index.html
などもありますが,参考になるかどうか...

もう少し一般的には,外的基準が0/1データのときの
http://aoki2.si.gunma-u.ac.jp/lecture/Survival/mul-log.html
などはどうでしょうか。

     [このページのトップへ]


235. Re^2: スレットスコアと判別式  門脇隆志  1999/12/10 (金) 00:17
> どのような分野での予測かよくわかりませんが,発現頻度の低い事象の予測には単純な重回帰分析(線形重回帰分析)ではうまく行かないと思います。

夏場に発生する「にわか雨」の有無について,予測式を作ろうとしています。

やはり線形では難しいですか。何となくそういう気はしていました。線形判別に加え,過去のデータから「こういう場合は絶対にない」という条件を定めて切り捨てを行えば,スコアを延ばすことは出来そうです。しかしこうした手法は,主観的で説得力に欠けるのが頭の痛いところです。


> 化学物質の濃度による発癌率の予測式については
> http://aoki2.si.gunma-u.ac.jp/RiskAssessment/index.html
> などもありますが,参考になるかどうか...
>
> もう少し一般的には,外的基準が0/1データのときの
> http://aoki2.si.gunma-u.ac.jp/lecture/Survival/mul-log.html
> などはどうでしょうか。
どうもありがとうございます。
参考に勉強してみます。

     [このページのトップへ]


236. Re^3: スレットスコアと判別式  マンボウ  1999/12/10 (金) 01:49
> 夏場に発生する「にわか雨」の有無について,予測式を作ろうとしています。

面白そうなデータですね。差し支えない範囲で,適当に選んだ数十ケースのデータについて,にわか雨の有無・それを予測できそうな変数値を見せて頂くと,それを実際にいろいろ分析してみた結果が報告されるかもしれませんね。

でも,研究者にとっては命の次に(命よりも?)大事なデータでしょうから,無理なお願いでしょうね。

うかがった範囲からは,医学分野で使われる「多重ロジスティックモデル」などが近いような気がします。多重ロジスティックモデルは,たとえば,ある年に行われた健康診断の結果にもとづいて,数年後にその人がある病気にかかるかどうかを予測する(と同時に,病気の発現に関与する要因は何かを探索する)というようなことを行うものです。

素人考えでは,ある時点での気象データ(ある年の健康診断の結果)に基づいて,例えば24時間後に(5年後に)にわか雨がある(ある種の癌が発生する)かどうかを予測するということに似ているような感じがしますが,どうなんでしょうか。

#今日は忙しい日だった,もう寝ましょう

     [このページのトップへ]


239. Re^4: スレットスコアと判別式  ただもの  1999/12/11 (土) 23:09
にわか雨のテーマについては,よほどきれいな結果が出て,さらに物理的説明がきちんとできなければ,外に発表できるものにはなりません。今はとりあえず,「使える」ものが出来ればいいと考えているところです。同じデータセットを用いて議論(お遊び?)しましょう,ということなら提供できないこともありません。

> うかがった範囲からは,医学分野で使われる「多重ロジスティックモデル」などが
そのことはここの管理者(?)の青木さんにも伺い,あちらこちらのHPで情報収集しているのですが,なんか解せないことがあります。

「個々の事例について,対数オッズはどう与えればいいか」現象有り:P=1,現象なし:P=0とすると,左辺の絶対値が無限大になってしまいますので・・・。


> 素人考えでは,ある時点での気象データ(ある年の健康診断の結果)に基づいて,例えば24時間後に(5年後に)にわか雨がある(ある種の癌が発生する)かどうかを予測するということに似ているような感じがしますが,どうなんでしょうか。

似たようなことを考えています。

     [このページのトップへ]


241. Re^5: スレットスコアと判別式  マンボウ  1999/12/11 (土) 23:40
> 「個々の事例について,対数オッズはどう与えればいいか」 現象有り:P=1,現象なし:P=0 とすると,左辺の絶対値が無限大になってしまいますので・・・。

対数オッズが出てくる式の両辺の指数を取って整理すると
p=1/(1+exp(-λ)),λは線形式
になり,予測はこの式について行うのです。
観察値では p は 0/1 ですが,予測値は0から1の範囲の値を取ります。

     [このページのトップへ]


242. Re^6: スレットスコアと判別式  ただもの  1999/12/12 (日) 00:14
> 対数オッズが出てくる式の両辺の指数を取って整理すると
> p=1/(1+exp(-λ)),λは線形式
> になり,予測はこの式について行うのです。
> 観察値では p は 0/1 ですが,予測値は0から1の範囲の値を取ります。
あ,頭のひもがほどけました。どうも有り難うございます。
安直に重回帰のルーチンを流用して最適化を行うことは出来ないのですね。

     [このページのトップへ]


240. ところで実は非線形の嵐なのです  ただもの  1999/12/11 (土) 23:10
ところで実は,現在説明変数に考えているもの同士に強い相関(しかも非線形)があります。長い歴史の中で,にわか雨の発生を物理的に考察していろいろな「指標」が設けられてきています。そしてこうした「指標」達は,気温とか,湿り等を用いた複雑な関数形をしています。つまり,にわか雨の予測については,歴史的にそうした非線形な取り扱いが必要とされていることになります。

そこで私の方も,最終的にはニューラルネットワークを用いることを考えているのですが,ニューラルネットの最適化には非常に大きな計算機資源が必要です。そこで,線形手法を用いることで,最適化に耐えられるくらいの数に変数を絞り込もうと,そう考えているのです。

こうしたことに頭を抱えている分野はたくさんあるだろうと思います。もっといい手法が有ればそれにこしたことはないのですが・・・。

     [このページのトップへ]


229. Re: スレットスコアと判別式  堀 啓造  1999/12/09 (木) 05:16

> 原因として,判別式を求める際に,「予測:無し,実例:なし」と「予測:あり,実例:あり」を同等に評価していることに原因があると思うのですが,「スレットスコア」を最も高くするように最適化する判別の手法について記載されている文献などございましたらご教授いただけないものでしょうか。

「スレットスコア」とは何ですか?

判別分析で,事前分布(spss用語)をケース数の割合にしてもだめですか?

     [このページのトップへ]


234. Re^2: スレットスコアと判別式  門脇隆志  1999/12/10 (金) 00:00
> 「スレットスコア」とは何ですか?
事例を以下の四つにわけます。
A:予測有り,現象有り
B:予測有り,現象無し
C:予測無し,現象有り
D:予測無し,現象無し

そして,
A/(A+B+C)
で求めたスコアをスレットスコア,と呼ぶようです。


> 判別分析で,事前分布(spss用語)をケース数の割合にしてもだめですか?
すみません,意味がわかりません(汗)・・・

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 004 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る