★ 5分位の変数はダミー不要? ★

 423 5分位の変数はダミー不要?  ひよこ  2002/11/18 (月) 04:35
  425 Re: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 18:36
   426 Re^2: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 18:46
    429 Re^3: 5分位の変数はダミー不要?  武田  2002/11/18 (月) 22:07
    427 Re^3: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 19:05
     428 Re^4: 5分位の変数はダミー不要?  sb812109  2002/11/18 (月) 19:49


423. 5分位の変数はダミー不要?  ひよこ  2002/11/18 (月) 04:35
いつも大変お世話になっております。

重回帰分析において,「5分位以上をとる変数の場合は,ダミー変数を作らなくても良い」との趣旨の記述を目にしたのですが,これにはどのような理論的背景があるのでしょうか。5分位以上の順序尺度は便宜的に間隔尺度と見なしても構わないということなのでしょうか?

『SPSSのよる多変量データ解析の手順』(石村貞夫)に,「そのような意見もある」と紹介されています。

     [このページのトップへ]


425. Re: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 18:36
石村氏の意見はどうなのか分からないのですが,シミュレーションしてみました。
sim <- function(r, n = 100, loop = 100)
{
    gendat <- function(r, n)
    {
        x <- rnorm(n)
        temp <- rnorm(n)
        y <- r*x+sqrt(1-r^2)*temp
        list(x=x, y=y)
    }

    conv <- function(y, t)
    {
        for (i in 1:length(y)) {
            if (y[i] < t[1]) {
                y[i] <- 1
            }
            else if (y[i] < t[2]) {
                y[i] <- 2
            }
            else if (y[i] < t[3]) {
                y[i] <- 3
            }
            else if (y[i] < t[4]) {
                y[i] <- 4
            }
            else {
                y[i] <-5
            }
        }
        y
    }

    c1 <- c2 <- rep(0, loop)
    for (i in 1:loop) {
        dat <- gendat(r, n)
        c1[i] <- cor(dat$x, dat$y) 
        t <- sort(runif(4,-1.5,1.5))
        c2[i] <- cor(conv(dat$x, t), dat$y)
    }
    plot(c1, c2)
}

     [このページのトップへ]


426. Re^2: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 18:46
sim(0.5) のように使います。他の引数は,省略可能。
r 2変数間の相関係数
n 標本の大きさ
loop シミュレーション回数

独立変数が一つの場合の標準化偏回帰係数は相関係数に等しいことから,相関係数がどのようになるかをシミュレーションしているわけである。

gendat(r, n)は,r を母相関とする二変数データを作る関数
conv(y, t)は,区分点 t によりカテゴリー化する関数
c1[i]は,原データそのままのときの相関係数
c2[i]は,独立変数をカテゴリー化したときの相関係数

結果は,一概にそのように結論するのは危険ではないかということと思います。

念のため
カテゴリー化する前のデータは潜在的に存在するデータ
カテゴリー化したデータは,それを5段階評価の調査票などで実際の数値としてとらえたデータに対応していると思います。
カテゴリー化の区分点は,選択肢の選定とかに関連する

     [このページのトップへ]


429. Re^3: 5分位の変数はダミー不要?  武田  2002/11/18 (月) 22:07
> 結果は,一概にそのように結論するのは危険ではないかということと思います。

なるほど,シミュレーションしてみるという確認方法がありましたね.石村氏が何を考えているか知らないが,5段階でいいといっているのは,変数が数個で1因子をつくるような場合でしょう.
そういうときは,

x = l F + e

で因子Fを作ってから,数個のxを発生させて,そいつを5段階にカテゴライズしてから,今度は因子分析してみて,真のFやlと比較する,というプロセスをシミュレーションすればいいんですか?

     [このページのトップへ]


427. Re^3: 5分位の変数はダミー不要?  青木繁伸  2002/11/18 (月) 19:05
sim(0.4) のときの結果を以下に示します
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/simres.png
c1 に比べて,c2 は小さくなる傾向があり,また,同程度のc1であっても,c2 はかなり変わってくる(これは区分点の影響)

     [このページのトップへ]


428. Re^4: 5分位の変数はダミー不要?  sb812109  2002/11/18 (月) 19:49
以下の様な方針をとっています。

(1)連続量は,サンプル・サイズに応じて3〜5の群に分け,ダミー変数で表す。
(2)回帰分析を行い,その関連を調べ,次の3つ程度に分類する。
2-1)直線関係
2-2)二次曲線関係
2-3)その他の関数関係
(3)(2)の分類に従って,ダミー変数を残すか否かを決定する。
直線関係の場合 ダミー変数を放棄し,連続量として扱う
    二次曲線の場合 ダミー変数を放棄し,連続量+二次の項を入れる
    その他の関数の場合 ダミー変数として残す

勿論,個人の好みです。理論的根拠は薄弱です。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 021 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る