★ ダミー変数について(初歩的な質問で申し訳ありません) ★

 410 ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/23 (金) 12:35
  417 Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:53
   423 Re^2: ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/24 (土) 15:14
  415 Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:38
  411 Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 12:56
   412 Re^2: ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/23 (金) 13:43
    416 Re^3: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:41
    413 Re^3: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:30
     414 Re^4: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:32


410. ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/23 (金) 12:35
はじめまして,岩本と申します。

JUSE-MAというソフトを使用して,重回帰分析 数量化Iの分析を行ったのですが,質的変数の分析結果をそのまま使用してよろしいのでしょうか?

例えば,A:定数項,B:量的変数,C:質的変数,C1をダミー変数として分析を行った場合,
A=10,B=5,C1=0,C2=5,C3=10
という分析結果が出たとします。

この結果を基に予測を行う場合(x=10,C3を選択した場合)
y = A + B * x + C
の式にあてはめて
10 + 5 * 10 + 10 = 70
となりますが,これでいいのでしょうか?

私は正規化と称してC1=-5,C2=0,C3=5のように修正して予測を行うものと思っていますがこの考えは間違っているのでしょうか?

     [このページのトップへ]


417. Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:53
> A=10,B=5,C1=0,C2=5,C3=10
> という分析結果が出たとします。
>
> この結果を基に予測を行う場合(x=10,C3を選択した場合)
> y = A + B * x + C
> の式にあてはめて

こんな風に書くから自分で混乱するんです。
各カテゴリーに対応する変数(ダミー変数とは呼ばないことにしておく)をd1, d2, d3 として
y = A + B * x + C1*d1 + C2*d2 + C3*d3
とかけばいいんです。この予測式の係数を求めようとするときに d1, d2, d3 は一次従属だから,任意の一つを除いて
y = A + B * x + C1*d1 + C2*d2
を解こうというのがダミー変数を使った重回帰です(d1, d2 がダミー変数,d3 を基準にしたことになる。すなわち c3 = 0 と考える)
y = A + B * x + C1*d1 + C3*d3
でもいいし,
y = A + B * x + C2*d2 + C3*d3
でもいいんです。
上では A, C1, C2, C3 などという記号を予測式中に書いたが,解いた結果得られるそれらに対応する数値は異なります。ただし,それによって計算される予測値は,どの予測式でも同じになります(そうでないと困るでしょ?同じデータで違う予測式が出てくるなんて)

     [このページのトップへ]


423. Re^2: ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/24 (土) 15:14

わざわざ丁寧な解説ありがとうございます。
おかげさまで,すっきりすることができました。

     [このページのトップへ]


415. Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:38
> 例えば,A:定数項,B:量的変数,C:質的変数,C1をダミー変数として分析を
> 行った場合,
> A=10,B=5,C1=0,C2=5,C3=10
> という分析結果が出たとします。

質的変数 C をダミー変数として扱うとき,この場合だとカテゴリー数が3つのようだから,2つのダミー変数の組を使うということです。

「C1をダミー変数として分析を行う」とはいいません。
「カテゴリーを3つ持つ質的変数を,C1,C2 の2つのダミー変数を用いて分析を行う」といいます。

2つのダミー変数を使うことになるので,「カテゴリーを3つ持つ質的変数を,C2,C3 の2つのダミー変数を用いて分析を行う」などといってもいいですけど。

     [このページのトップへ]


411. Re: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 12:56
> 私は正規化と称してC1=-5,C2=0,C3=5のように修正して予測を行うものと思っていますがこの考えは間違っているのでしょうか?

C1=0,C2=5,C3=10 のときの予測式が
y = A + B * x + C
だとすると(数式の表現が変だけど,もとのままにしておきます。意味はわかるでしょう),
C1'=-5,C2'=0,C3'=5 のときの予測式は
y = (A+5) + B * x + C
になるだけです。つまり,定数項の調整だけです。
 なお,数量化理論でいう正規化は,C1,C2,C3 への反応が n1, n2, n3 人のとき,C1, C2, C3 の間隔を保存したままで C1'・n1 + C2'・n2 + C3'・n3 = 0 になるように C1, C2, C3 を調整することです。

     [このページのトップへ]


412. Re^2: ダミー変数について(初歩的な質問で申し訳ありません)  岩本  2001/02/23 (金) 13:43
早いご回答ありがとうございます。

> になるだけです。つまり,定数項の調整だけです。

C1をダミー変数としたときにC1=0,C2=5,C3=10,
C3をダミー変数としたときにC1=-10,C2=-5,C3=0
のように分析結果が出てきていたし,その他の質的変数とか定数項に違いがありませんでしたので,私は調整が必要になるものと思っていました。

上記のようになる場合は,同じ条件でも予測値が違ってきませんでしょうか?
C1がダミー変数の場合は,
10 + 5 * 10 + 10 = 70
C3がダミー変数の場合は,
10 + 5 * 10 + 0 = 60

この結果になることは統計的に正しいのでしょうか?
それとも下記のような正規化の処理を行う必要があるのでしょうか?

>  なお,数量化理論でいう正規化は,C1,C2,C3 への反応が
>  n1, n2, n3 人のとき,C1, C2, C3 の間隔を保存したままで
>  C1'・n1 + C2'・n2 + C3'・n3 = 0 になるように C1, C2, C3
>  を調整することです。

なるほど,勉強になりました。ありがとうございます。

     [このページのトップへ]


416. Re^3: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:41
> それとも下記のような正規化の処理を行う必要があるのでしょうか?
>
> >  なお,数量化理論でいう正規化は,C1,C2,C3 への反応が
> >  n1, n2, n3 人のとき,C1, C2, C3 の間隔を保存したままで
> >  C1'・n1 + C2'・n2 + C3'・n3 = 0 になるように C1, C2, C3
> >  を調整することです。
>
> なるほど,勉強になりました。

正規化しても,それは定数項の調整に反映されるだけなので予測式の見かけは変わるけど,その予測式から計算される数値は変わるわけがありません。予測値が変わるような変更をされるわけがないのです。

     [このページのトップへ]


413. Re^3: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:30
> C1をダミー変数としたときにC1=0,C2=5,C3=10,
> C3をダミー変数としたときにC1=-10,C2=-5,C3=0
> のように分析結果が出てきていたし,その他の質的変数とか定数項に
> 違いがありませんでしたので,

定数項に違いがないわけがないと思いますが?


以下のようなデータを分析してみてください。
  Y  X  C1  C2  C3
 11.2  4  1  0  0
 9.4  3  0  1  0
 16.4  6  0  0  1
 5.2  1  1  0  0
 16.1  6  0  1  0
 13.7  4  0  0  1
つづく

     [このページのトップへ]


414. Re^4: ダミー変数について(初歩的な質問で申し訳ありません)  名無しさん  2001/02/23 (金) 16:32
つづき

 Yが従属変数,Xは独立変数(連続変数),C1,C2,C3 は3つのカテゴリーを持つ変数を0/1データに変換したもの。
 X, C1, C2 を用いたとき,Y=5.163636364+1.977272727・X-1.906818182・C1-1.311363636・C2 (+0・C3)
 X, C2, C3 を用いたとき,Y=3.256818182+1.977272727・X(+0・C1)+0.595454545・C2+1.906818182・C3
となりますね。
 一行目の予測値は,5.163636364+1.977272727・4-1.906818182・1-1.311363636・0 (+0・0)= 11.16590909
あるいは,3.256818182+1.977272727・4(+0・1)+0.595454545・0+1.906818182・0= 11.16590909
となりますので,同じ予測値になりますね。

もし,あなたの使ったソフトで同じ答えにならないのなら,それはとっても変なことです。

上の計算は,私の嫌いな MS Excel で行いました。
残念ながら,MS Excel は正しい答えを出してしまったようです(^_^)。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 012 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る