No.03822 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【MAGI】 2007/07/04(Wed) 22:25

いつも質問ばかりで恐縮です
カテゴリ変数として得られた収入のデータを,ダミー変数化して因子分析や重回帰分析で,連続変数と同時に使用することに問題はありますか?
例えば,収入0円を0,年収200万円以下を1,201〜400万円を2,401〜600万円を3,601〜800万円を4,801〜1000万円を5,1001万円以上を6として,因子分析や重回帰分析を行うことに問題はないでしょうか?
あるいは,使用した場合の結果の解釈の留意点等あればご教示いただければ幸いです

No.03824 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【青木繁伸】 2007/07/05(Thu) 01:43

> 収入0円を0,年収200万円以下を1,201〜400万円を2,401〜600万円を3,601〜800万円を4,801〜1000万円を5,1001万円以上を6として

それはダミー変数にしたことにならないでしょう
連続変数をカテゴリー変数として測定したと言うことでしょう
7種類のカテゴリーがあるわけですから,6個のダミー変数を用い,0〜6 のカテゴリーを
0 0 0 0 0 0
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
の7通りの組み合わせで表すのです。
わざわざこういう事をしなくても,0〜6で入力したものがカテゴリー変数だよと教えてやれば内部でちゃんとダミー変数を作って分析してくれるソフトもあります
R だと,factor 型を使います。

No.03830 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【MAGI】 2007/07/05(Thu) 18:17

青木先生
レスありがとうございます。説明が足りなかったのだと思います。もともと収入についてはカテゴリ データしかない調査でした。ただ,どうしても,収入の多い少ないが従属変数へ与える影響を検討したく,生半可な知識ですが,カテゴリカルデータでも3段階 位はダメだが,7段階位だとダミー変数として連続量として扱ってよいとどこかで聞いた覚えがあり,このような質問となりました。

また,今 回の分析は,重回帰分析で,各独立変数の影響度の大きさを比較したいという意図だったのですが,どうも教科書等を読むと,本来重回帰分析はそのような機能 ではなく,回帰式を作成し,従属変数の予測が本来の機能だと。また,私のソフトは結果に,標準回帰係数と表示されますが,これは標準偏回帰係数と同じと考 えていいのでしょうか。また,Rの存在をはじめて知りました。有難うございました。ただ,統計の基礎でまごついているのに,また別の宇宙の存在を知ってし まったような感じです。

No.03831 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【青木繁伸】 2007/07/05(Thu) 18:31

> 重回帰分析で,各独立変数の影響度の大きさを比較したいという意図だったのですが,どうも教科書等を読むと,本来重回帰分析はそのような機能ではなく,回帰式を作成し,従属変数の予測が本来の機能だと

重回帰分析は,予測とともに,要因解析も目的としますので,ご希望のことはできますよ。

> カテゴリカルデータでも3段階位はダメだが,7段階位だとダミー変数として連続量として扱ってよい

ダミー変数と多段階のカテゴリーデータとは意味が異なります。
7段階だと連続量として扱って良いという場合には,変数は1つ(1〜7の7種類の値を持つ)ですが,これをダミー変数で扱う場合には,0/1の二値データを持つ6つのダミー変数を使うことになります。

> 私のソフトは結果に,標準回帰係数と表示されますが,これは標準偏回帰係数と同じと考えていいのでしょうか

たぶん同じものだと思いますが,実際に分析してみた数値と比較すると同じものか別物かはすぐにわかりますね。

No.03847 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【MAGI】 2007/07/10(Tue) 06:58

ご教示ありがとうございます
カテゴリ変数をダミー変数化することと,量に順序があるカテゴリ変数に順序尺度を割り当てることを混同していました
調査項目がカテゴリ形式でしか得られない場合,そのカテゴリに大小の関係が成立する場合,その順序に0〜6の順序数を振り分け,順序尺度として分析するにことに問題はあるのでしょうか?
繰 り返しになってしまうのですが,収入0円を0,年収200万円以下を1,201〜400万円を2,401〜600万円を3,601〜800万円を4, 801〜1000万円を5,1001万円以上を6として数字を割り当て,順序尺度として因子分析や重回帰分析を行うことに問題はあるでしょうか

No.03848 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【青木繁伸】 2007/07/10(Tue) 08:30

> そのカテゴリに大小の関係が成立する場合,その順序に0〜6の順序数を振り分け,順序尺度として分析するにことに問題はあるのでしょうか?

あります

収入0は0でやむを得ないとして
200万円以下が1なら201~400万円は2ではなく3,
401万円~600万円は3ではなく5,,,では?つまり,区間の中間値
(でも1001万円以上の中間値って何だ?)

と言われたら,どう反論しますか。
0,1,2,3,4,5,6 じゃなくて 0,1,3,5,7,9,11

じゃあ,そうしましょうというとして,本当に中間値でいいの?といわれたらどうします?

要するに,順序尺度変数には,順序しかついていないのです。
特定の値を割り当てるというのは,十分な正当性を持っているとは言い難いわけで
近似的になら良いだろう? 近似的にならね。

No.03849 Re: 因子分析や重回帰分析におけるカテゴリ変数をダミー化しての使用について  【MAGI】 2007/07/10(Tue) 12:49

青木先生
いつもレスありがとうございます
調査項目で収入の部分は,具体的な金額で記入とすれば,連続量として扱えるのでしょうが,なかなか回答率が低くなる印象があります。
カテゴリで,0〜200万円等だと,回答への抵抗が減るのでしょうか,回答率が高い印象があります。やはり,カテゴリカルデータを操作して連続量として扱うのではなく,分散分析等独立変数として扱う等,分析方法をきっぱりあきらめるのも必要なのですね
Rの勉強もはじめます
ありがとうございました

● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る