「統計学関連なんでもあり」の過去ログ--- 039

No.00950　数量化I類に関しての質問　　【R初心者】　2006/08/24(Thu) 14:41

ダミー変数(カテゴリカルデータ)に関して質問です。

例えばRなんかで数量化I類を行う時，大まかなカテゴリー，A，B，Cがあって，その下にサブカテゴリa,b,cがあるとします。それぞれA，B，C，をfactor関数を用いてlevelを付けた場合， (a，b，c)，(x，y，z)，(α，β，γ)がそれぞれA，B，Cの下に出来た，と言った意味ですね。
この時，lm関数を使って回帰分析を行って，例えば(a，c)，(x，y，z)，(α，β，γ)の係数はそれぞれ有意だったんですが，bだけ有意でなかったとします。
その場合，経験から判断して，bをaに含める，もしくはcに含める等の「カテゴリーの併合」と言うのを行って再度解析にかけるのはまずいのでしょうか?
もしくは，こう言った「有意ではない」ダミー変数はどう扱えば宜しいのですか?
是非ともご教授下さい。

No.00951　Re: 数量化I類に関しての質問　　【R初心者】　2006/08/24(Thu) 14:42

もう一つ言うと，例えば「ダミー変数を利用したロジスティック回帰」でも同様の問題が発生する場合が考えられるので，こう言った場合の対処法も伝授していただければ幸いです。

No.00952　Re: 数量化I類に関しての質問　　【青木繁伸】　2006/08/24(Thu) 15:12

> 経験から判断して，bをaに含める，もしくはcに含める等の「カテゴリーの併合」

というのは，あくまでも主観での判断ですね。
併合するものとされるものは，数量化I類の観点からは別のものとされた（片方は有意，もう一方は有意ではない）のですから，それを一緒にするのは問題があるのではないですか？
有意ではないものを全部まとめて「その他」などにするというのはかまわないと思いますが。

なお，有意でないカテゴリーを残してはいけないと言うことはないので，ネガティブデータとしての意味もあると思うので，無理矢理カテゴリー併合をする必要があるかどうかも再検討してみてはいかがでしょうか？

No.00955　Re: 数量化I類に関しての質問　　【R初心者】　2006/08/24(Thu) 17:35

ご回答ありがとうございます。

＞併合するものとされるものは，数量化I類の観点からは別のものとされた（片方は有意，もう一方は有意ではない）のですから，それを一緒にするのは問題があるのではないですか？
有意ではないものを全部まとめて「その他」などにするというのはかまわないと思いますが。

なるほど，です。
もう一つの解決策としては切片項と一緒くたにしてしまう，と言うのはありでしょうか?
と言うのも，原理的な数量化I類(または回帰分析)の考え方から言うと，「切片項」との差が問題なのではないでしょうか?つまり，切片項と「有意な差が見られなかった」と言う意味にはならないでしょうか?
この辺りもご教示願えたら，と思います。

＞なお，有意でないカテゴリーを残してはいけないと言うことはないので，ネガティブデータとしての意味もあると思うので，無理矢理カテゴリー併合をする必要があるかどうかも再検討してみてはいかがでしょうか？

なるほど，です。検討してみます。
この辺り，AICに拠る変数選択とか，係数の有意性と言うのは解釈が難しいですね。

No.00956　Re: 数量化I類に関しての質問　　【青木繁伸】　2006/08/24(Thu) 17:57

> 切片項と一緒くたにしてしまう，と言うのはありでしょうか?
> と言うのも，原理的な数量化I類(または回帰分析)の考え方から言うと，「切片項」との差が問題なのではないでしょうか?つまり，切片項と「有意な差が見られなかった」と言う意味にはならないでしょうか?

どのように一緒にできるのでしょうか？

y_hat = a+bx+cz というとき，c が有意でない（0であることを否定できない）ときどのような式にするのでしょうか
z として，全てのデータにその平均値を代入して，c*z_mean → 定数と？

やってみてその方が解釈しやすくその他の問題がないのならいいのかも。

No.00957　Re: 数量化I類に関しての質問　　【R初心者】　2006/08/24(Thu) 18:29

＞どのように一緒にできるのでしょうか？

つまり単純に言うと最初にモデルとして

y = a+bx+cz

を想定していたんですが，ここでcが有意ではなかった。
そこでモデルを作り直して

y = a+bx

として解析しなおしてみる，と言った意味です。
全体として係数の数値は変わるでしょうが，理屈としては合っているのではないか，と思ったのです。
如何でしょうか?

No.00958　Re: 数量化I類に関しての質問　　【青木繁伸】　2006/08/24(Thu) 18:56

> y = a+bx

そのようにするのは要するに，その変数を使わないということです。
普通の変数なら使おうと使うまいと自由なんですが，カテゴリーデータを展開したダミー変数では，その一部を使わないということはできません。無理矢理そういうことをしようとすると，そのカテゴリーに該当するケースは欠損値を持つことになり，取り除くことになりますがいいですか？
例えば，変数が3つのカテゴリー a, b, c を持つとしましょう。ダミー変数は2つ必要になります。
a に対しては 0, 0
b に対しては 1, 0
c に対しては 0, 1
という値の組を持つことになります。
この状態で例えば c というカテゴリーをモデルに組み入れないとすると，a, b を表すためにダミー変数は1個必要で，a に対しては 0，b に対しては 1 という値を持たせることになります。では，もともと c だったケースは 0 でも 1 でもない値（結局どちらでもないのだから NA）という値を取らねばなりません。

もう少し簡単に言えば，c というカテゴリーが無かったことにするわけですから c というカテゴリーに答えたデータはそんなデータは変なデータだと言うことで削除するということになるわけです。

それが，貴方の分析に置いてどのような意味を持つか考察し直して，正しく対処しましょう。

No.00959　Re: 数量化I類に関しての質問　　【R初心者】　2006/08/24(Thu) 19:14

＞そのようにするのは要するに，その変数を使わないということです。
普通の変数なら使おうと使うまいと自由なんですが，カテゴリーデータを展開したダミー変数では，その一部を使わないということはできません。無理矢理そういうことをしようとすると，そのカテゴリーに該当するケースは欠損値を持つことになり，取り除くことになりますがいいですか？

はい。その通りです。
「カテゴリーの併合」と言うよりは「削除」と言った方が良かったのかもしれません。
何で「併合」と言う言い方をしたのかと言うと，元々基準値としての「切片項」の意味合いを重視したからです。n個のカテゴリーに対してn－1個のダミー変数を使用する為，結果(0, 0)と言ったベクトルの結果は全て「切片項に含まれてしまう」その意味が強いと考えていたからです。
ですから，確かにカテゴリー要素だけに注目すれは「削除」と言った方が良かったのかもしれません・・・・が，元々回帰分析や数量化I類自体，変数選択自体が元々モデルを構築する段階ではある意味「主観」ですし，切片項のニュアンスが「その他諸々の要素」に見えるので，「併合」と言う言い方をしました。紛らわしくてすみませんでした。

＞それが，貴方の分析に置いてどのような意味を持つか考察し直して，正しく対処しましょう。

分かりました。
色々とご教授ありがとうございました。