「統計学関連なんでもあり」の過去ログ---020

★ 量的変数のカテゴリ化方法について ★

　430　量的変数のカテゴリ化方法について　　みーこ　　2002/09/10 (火) 19:19
　　432　Re: 量的変数のカテゴリ化方法について　　出口慎二　　2002/09/10 (火) 22:57
　　　433　Re^2: 量的変数のカテゴリ化方法について　　みーこ　　2002/09/11 (水) 01:44
　　　　434　Re^3: 量的変数のカテゴリ化方法について　　出口慎二　　2002/09/11 (水) 08:21
　　　　　451　Re^4: 量的変数のカテゴリ化方法について　　みーこ　　2002/09/13 (金) 10:39

430.　量的変数のカテゴリ化方法について　　みーこ　　2002/09/10 (火) 19:19

413にて，CHAIDについて質問させていただいた者です。

現在，SPSSのAnswerTreeの中のCHAIDの仕組みについて調べているの
ですが，マニュアルに
「量的説明変数は，分析のため自動的にカテゴリ化されます」
とありました。
量的変数を扱う際には，F検定を用いるということは分かったのですが，
おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
どうなっているのか，もしご存知の方（もしくは推測でも結構ですので）
いらっしゃいましたらご教授ください!
あと，AnswerTreeで用いている方法以外にも，量的変数のカテゴリ化方法
について，いい方法をご存知でしたら，合わせて情報をいただけると
うれしいです。

よろしくお願いします!

　　　　　[このページのトップへ]

432.　Re: 量的変数のカテゴリ化方法について　　出口慎二　　2002/09/10 (火) 22:57

> おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> どうなっているのか，

先に紹介したFIRMでは，ディフォルトは10カテゴリで，各カテゴリの度数が均等になるようにという基準のみで，初期の階級分けをするようです.

実際のところ，CHAIDの過程で，多すぎるカテゴリは併合されていきます（縮約されます）.ですので，初期のカテゴライズは，少し多めになっていれば，さほど気にすることでもないかも知れません.

AnswerTreeの話ではありませんが，ご参考まで.

　　　　　[このページのトップへ]

433.　Re^2: 量的変数のカテゴリ化方法について　　みーこ　　2002/09/11 (水) 01:44

＞出口さん
何度もご丁寧な回答ありがとうございます!

> > おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> > どうなっているのか，
>
> 先に紹介したFIRMでは，ディフォルトは10カテゴリで，各カテゴリの度数が均等になるようにという基準のみで，初期の階級分けをするようです.

やはりそうですか。
AnswerTreeのCHAIDでも，度数が均等になるように，という基準のみで
分けているという噂も聞いたんですが，まさかそんな簡単な分け方では
ないだろうと質問させていただきました。

もっと意味のある複雑な分け方をする必要なのでは?と思っていましたが，
確かに，初期に十分細かく分けておけば，必要な部分は集約され，最終的に
意味のある分割になりますものね。
とても参考になりました。ありがとうございました!

もし，もうちょっと凝った分け方をするとなると，K-means法などの
クラスタリング手法を用いることになるのでしょうか?
それは意味があるとお思いですか?
ぜひご意見をお聞かせ下さい。

　　　　　[このページのトップへ]

434.　Re^3: 量的変数のカテゴリ化方法について　　出口慎二　　2002/09/11 (水) 08:21

> もし，もうちょっと凝った分け方をするとなると，K-means法などの
> クラスタリング手法を用いることになるのでしょうか?
> それは意味があるとお思いですか?
> ぜひご意見をお聞かせ下さい。

私自身は，多少凝った方法を使ったことはありますが，最終的には，「試行錯誤」になってくる（予め分析者側の判断でカテゴリ化を行い，量的変数のない，カテゴリ変数だけのデータセットを作ってからCHAIDにかける）ので，とりあえずは，単純な分割をして様子をみてみる，ということで問題ないかな，という気がします.

　　　　　[このページのトップへ]

451.　Re^4: 量的変数のカテゴリ化方法について　　みーこ　　2002/09/13 (金) 10:39

> 私自身は，多少凝った方法を使ったことはありますが，最終的には，「試行錯誤」になってくる（予め分析者側の判断でカテゴリ化を行い，量的変数のない，カテゴリ変数だけのデータセットを作ってからCHAIDにかける）ので，とりあえずは，単純な分割をして様子をみてみる，ということで問題ないかな，という気がします.

何度もありがとうございます。
確かに，データマイニングに主観的判断を入れてしまうのは，あまりいいこと
だとは思いませんし，仮定に仮定を重ねると，潜在的な情報が引き出せない
のではと思います。
ご助言ありがとうございました!

　　　　　[このページのトップへ]