★ 量的変数のカテゴリ化方法について ★

 430 量的変数のカテゴリ化方法について  みーこ  2002/09/10 (火) 19:19
  432 Re: 量的変数のカテゴリ化方法について  出口慎二  2002/09/10 (火) 22:57
   433 Re^2: 量的変数のカテゴリ化方法について  みーこ  2002/09/11 (水) 01:44
    434 Re^3: 量的変数のカテゴリ化方法について  出口慎二  2002/09/11 (水) 08:21
     451 Re^4: 量的変数のカテゴリ化方法について  みーこ  2002/09/13 (金) 10:39


430. 量的変数のカテゴリ化方法について  みーこ  2002/09/10 (火) 19:19
413にて,CHAIDについて質問させていただいた者です。

現在,SPSSのAnswerTreeの中のCHAIDの仕組みについて調べているの
ですが,マニュアルに
「量的説明変数は,分析のため自動的にカテゴリ化されます」
とありました。
量的変数を扱う際には,F検定を用いるということは分かったのですが,
おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
どうなっているのか,もしご存知の方(もしくは推測でも結構ですので)
いらっしゃいましたらご教授ください!
あと,AnswerTreeで用いている方法以外にも,量的変数のカテゴリ化方法
について,いい方法をご存知でしたら,合わせて情報をいただけると
うれしいです。

よろしくお願いします!

     [このページのトップへ]


432. Re: 量的変数のカテゴリ化方法について  出口慎二  2002/09/10 (火) 22:57
> おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> どうなっているのか,

先に紹介したFIRMでは,ディフォルトは10カテゴリで,各カテゴリの度数が均等になるようにという基準のみで,初期の階級分けをするようです.

実際のところ,CHAIDの過程で,多すぎるカテゴリは併合されていきます(縮約されます).ですので,初期のカテゴライズは,少し多めになっていれば,さほど気にすることでもないかも知れません.

AnswerTreeの話ではありませんが,ご参考まで.

     [このページのトップへ]


433. Re^2: 量的変数のカテゴリ化方法について  みーこ  2002/09/11 (水) 01:44
>出口さん
何度もご丁寧な回答ありがとうございます!

> > おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> > どうなっているのか,
>
> 先に紹介したFIRMでは,ディフォルトは10カテゴリで,各カテゴリの度数が均等になるようにという基準のみで,初期の階級分けをするようです.

やはりそうですか。
AnswerTreeのCHAIDでも,度数が均等になるように,という基準のみで
分けているという噂も聞いたんですが,まさかそんな簡単な分け方では
ないだろうと質問させていただきました。

もっと意味のある複雑な分け方をする必要なのでは?と思っていましたが,
確かに,初期に十分細かく分けておけば,必要な部分は集約され,最終的に
意味のある分割になりますものね。
とても参考になりました。ありがとうございました!

もし,もうちょっと凝った分け方をするとなると,K-means法などの
クラスタリング手法を用いることになるのでしょうか?
それは意味があるとお思いですか?
ぜひご意見をお聞かせ下さい。

     [このページのトップへ]


434. Re^3: 量的変数のカテゴリ化方法について  出口慎二  2002/09/11 (水) 08:21
> もし,もうちょっと凝った分け方をするとなると,K-means法などの
> クラスタリング手法を用いることになるのでしょうか?
> それは意味があるとお思いですか?
> ぜひご意見をお聞かせ下さい。

私自身は,多少凝った方法を使ったことはありますが,最終的には,「試行錯誤」になってくる(予め分析者側の判断でカテゴリ化を行い,量的変数のない,カテゴリ変数だけのデータセットを作ってからCHAIDにかける)ので,とりあえずは,単純な分割をして様子をみてみる,ということで問題ないかな,という気がします.

     [このページのトップへ]


451. Re^4: 量的変数のカテゴリ化方法について  みーこ  2002/09/13 (金) 10:39
> 私自身は,多少凝った方法を使ったことはありますが,最終的には,「試行錯誤」になってくる(予め分析者側の判断でカテゴリ化を行い,量的変数のない,カテゴリ変数だけのデータセットを作ってからCHAIDにかける)ので,とりあえずは,単純な分割をして様子をみてみる,ということで問題ないかな,という気がします.

何度もありがとうございます。
確かに,データマイニングに主観的判断を入れてしまうのは,あまりいいこと
だとは思いませんし,仮定に仮定を重ねると,潜在的な情報が引き出せない
のではと思います。
ご助言ありがとうございました!

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 020 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る