★ 量的変数のカテゴリ化方法について ★
430 量的変数のカテゴリ化方法について みーこ 2002/09/10 (火) 19:19
432 Re: 量的変数のカテゴリ化方法について 出口慎二 2002/09/10 (火) 22:57
433 Re^2: 量的変数のカテゴリ化方法について みーこ 2002/09/11 (水) 01:44
434 Re^3: 量的変数のカテゴリ化方法について 出口慎二 2002/09/11 (水) 08:21
451 Re^4: 量的変数のカテゴリ化方法について みーこ 2002/09/13 (金) 10:39
430. 量的変数のカテゴリ化方法について みーこ 2002/09/10 (火) 19:19 |
413にて,CHAIDについて質問させていただいた者です。
現在,SPSSのAnswerTreeの中のCHAIDの仕組みについて調べているの
ですが,マニュアルに
「量的説明変数は,分析のため自動的にカテゴリ化されます」
とありました。
量的変数を扱う際には,F検定を用いるということは分かったのですが,
おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
どうなっているのか,もしご存知の方(もしくは推測でも結構ですので)
いらっしゃいましたらご教授ください!
あと,AnswerTreeで用いている方法以外にも,量的変数のカテゴリ化方法
について,いい方法をご存知でしたら,合わせて情報をいただけると
うれしいです。
よろしくお願いします! |
[このページのトップへ]
432. Re: 量的変数のカテゴリ化方法について 出口慎二 2002/09/10 (火) 22:57 |
> おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> どうなっているのか,
先に紹介したFIRMでは,ディフォルトは10カテゴリで,各カテゴリの度数が均等になるようにという基準のみで,初期の階級分けをするようです.
実際のところ,CHAIDの過程で,多すぎるカテゴリは併合されていきます(縮約されます).ですので,初期のカテゴライズは,少し多めになっていれば,さほど気にすることでもないかも知れません.
AnswerTreeの話ではありませんが,ご参考まで. |
[このページのトップへ]
433. Re^2: 量的変数のカテゴリ化方法について みーこ 2002/09/11 (水) 01:44 |
>出口さん
何度もご丁寧な回答ありがとうございます!
> > おおもとの「自動的にカテゴリ化」する部分のアルゴリズムが
> > どうなっているのか,
>
> 先に紹介したFIRMでは,ディフォルトは10カテゴリで,各カテゴリの度数が均等になるようにという基準のみで,初期の階級分けをするようです.
やはりそうですか。
AnswerTreeのCHAIDでも,度数が均等になるように,という基準のみで
分けているという噂も聞いたんですが,まさかそんな簡単な分け方では
ないだろうと質問させていただきました。
もっと意味のある複雑な分け方をする必要なのでは?と思っていましたが,
確かに,初期に十分細かく分けておけば,必要な部分は集約され,最終的に
意味のある分割になりますものね。
とても参考になりました。ありがとうございました!
もし,もうちょっと凝った分け方をするとなると,K-means法などの
クラスタリング手法を用いることになるのでしょうか?
それは意味があるとお思いですか?
ぜひご意見をお聞かせ下さい。 |
[このページのトップへ]
434. Re^3: 量的変数のカテゴリ化方法について 出口慎二 2002/09/11 (水) 08:21 |
> もし,もうちょっと凝った分け方をするとなると,K-means法などの
> クラスタリング手法を用いることになるのでしょうか?
> それは意味があるとお思いですか?
> ぜひご意見をお聞かせ下さい。
私自身は,多少凝った方法を使ったことはありますが,最終的には,「試行錯誤」になってくる(予め分析者側の判断でカテゴリ化を行い,量的変数のない,カテゴリ変数だけのデータセットを作ってからCHAIDにかける)ので,とりあえずは,単純な分割をして様子をみてみる,ということで問題ないかな,という気がします. |
[このページのトップへ]
451. Re^4: 量的変数のカテゴリ化方法について みーこ 2002/09/13 (金) 10:39 |
> 私自身は,多少凝った方法を使ったことはありますが,最終的には,「試行錯誤」になってくる(予め分析者側の判断でカテゴリ化を行い,量的変数のない,カテゴリ変数だけのデータセットを作ってからCHAIDにかける)ので,とりあえずは,単純な分割をして様子をみてみる,ということで問題ないかな,という気がします.
何度もありがとうございます。
確かに,データマイニングに主観的判断を入れてしまうのは,あまりいいこと
だとは思いませんし,仮定に仮定を重ねると,潜在的な情報が引き出せない
のではと思います。
ご助言ありがとうございました! |
[このページのトップへ]
● 「統計学関連なんでもあり」の過去ログ--- 020 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る