No.15996 数量化I類 カテゴリ4つのときの目的変数への影響度について  【ゆーだい】 2011/12/15(Thu) 17:57

数量化I類を行う際に,説明変数のひとつがカテゴリが4つ(a,b,c,d)のため,以下のようにダミー変数[x1(0,1),x2(0,1),x3(0,1)]を設定しました。
   x1  x2  x3
a 0 0 0
b 1 0 0
c 0 1 0
d 0 0 1
これを用いて数量化I類を行った結果,以下のようなx1,x2,x3の各カテゴリスコアを得たのですが,ここからどのようにaの影響度を捉えることができるのでしょうか?もしくは,捉えることができないのでしょうか?
【カテゴリスコア】
x1(0) 0.15185 
x1(1)-0.29629
x2(0) 0.49320 
x2(1)-1.29711
x3(0)-0.07121 
x3(1) 0.24790
ま た,以下のように設定したら,a,b,c,dそれぞれの影響度を捉えられると思います。しかし,現在私が使用しているRでは上記のようなダミー変数の設定 ではないと,分析できないようです。もし,プログラムの設定等でRで以下のようなダミー変数の設定でも分析可能ならお教えください。
また,もし以下のダミー変数の設定でも分析できるソフトがありましたら,お教えください。
 x1  x2  x3 x4
a 1 0 0 0
b 0 1 0 0
c 0 0 1 0
d 0 0 0 1
以上です。
ご教授の程,よろしくお願い致します。

No.15998 Re: 数量化I類 カテゴリ4つのときの目的変数への影響度について  【青木繁伸】 2011/12/15(Thu) 19:25

> ここからどのようにaの影響度を捉えることができるのでしょうか?もしくは,捉えることができないのでしょうか?

分 析の指定がおかしいですね。4つのカテゴリーを持つ変数を数量化I類に使うと4つのカテゴリースコアが得られます。あなたのように,6つのカテゴリースコ アが得られるのは,指定がおかしいのです。どこがおかしいか,以下の例をあなたのやりかたでやってみて,結果を比較して下さい。
以下のようなデータを
 u v    y
1 1 43.2
1 3 49.8
2 2 45.6
1 2 53.5
1 1 50.7
2 2 50.1
1 2 48.1
1 1 42.3
2 1 47.8
1 2 40.2
1 2 39.0
1 1 40.6
2 2 56.8
2 1 34.2
2 3 41.3
2 2 54.8
1 1 48.1
1 1 65.5
1 1 43.9
1 1 46.5
数量化I類で分析すると,次のような結果になるはず。
       カテゴリースコア
u.1 0.13317
u.2 -0.24732
v.1 -0.87707
v.2 1.46957
v.3 -1.49293
定数項 47.10000
数量化I類のプログラムにダミー変数の形でデータを与えてはいけません(プログラムがどのように作られているかによるけど)。すくなくとも,http://aoki2.si.gunma-u.ac.jp/R/qt1.html にあるプログラムでは,カテゴリー数値を与えるように作っている。使用例を参照のこと。
このようになれば,元のカテゴリーの相対比較は何の問題もなくできるでしょう?

>もし以下のダミー変数の設定でも分析できるソフトがありましたら,お教えください。

本 質的に,どのようなデータでも(重回帰分析なのだから)予測値は同じになる。ただ,途中の計算で,例えば一次従属な独立変数があるとき特異行列ということ で計算が中止されることがあるわけですが,そのような場合には一般可逆行列を求めるというようにすれば,エラーが起きず,正しい結果が得られます。そのよ うなことをしてくれる関数のひとつが,http://aoki2.si.gunma-u.ac.jp/R/mreg.html にあるものです。第二引数で "ginv" を指定すれば,冗長なダミー変数を除かなくても,正しく計算結果が得られます。
しつこいですが,そのようにして得られる予測式と,冗長なダミー変数を除いて通常の計算で得られる予測式と,元のカテゴリー数値をデータとして与える数量化I類による予測式,どれを使っても同じ予測値になります。

No.16001 Re: 数量化I類 カテゴリ4つのときの目的変数への影響度について  【ゆーだい】 2011/12/15(Thu) 20:13

度々ご指導頂き,誠にありがとうございます。
ご教授から,問題はこちらで勝手にダミー変数の形を与えていたところだということがわかりました。
お教えいただいたURL(http://aoki2.si.gunma-u.ac.jp/R/qt1.html)に基づいて,4つのカテゴリを1,2,3,4とし,Rで分析した結果,それぞれ(1,2,3,4)のカテゴリスコアが算出されました。 また,参考例も同じ値が出ました。
本当にありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る