★ 偏りのあるデータについて ★

 76 偏りのあるデータについて  noriko  2002/12/02 (月) 16:03
  77 Re: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 16:30
   82 Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 17:43
    84 Re: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:01
     85 Re^2: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:03
      87 Re^3: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:18
       88 Re^4: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:23
        90 Re^5: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:32
         94 Re^8: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 19:15
         91 Re^6: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 18:44
          92 Re^7: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:53
           93 Re^8: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 19:01
            95 Re^9: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 19:25
             96 Re^10: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 21:02


76. 偏りのあるデータについて  noriko  2002/12/02 (月) 16:03
はじめまして。突然ですがどうしてもわからないことがあってメールいたします。
得点分布が極端に偏ったデータの処理について悩んでいます(得点化:0点,1点の2件法)。

データの平均値,標準偏差等は以下のとおりです。

n=342
平均値 0.828
標準偏差 1.527
歪度    2.432
尖度    5.965

なお,得点の範囲は0‐8点,0点が全体の60%以上です。

平均よりも標準偏差が大きい場合,どういう処理が適切なのでしょうか?また,これは解析するのに適切なデータといえるのでしょうか?

どうかお分かりになりましたらご回答ください。お願いします。

     [このページのトップへ]


77. Re: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 16:30
> 得点分布が極端に偏ったデータの処理について悩んでいます(得点化:0点,1点の2件法)。
>
> データの平均値,標準偏差等は以下のとおりです。
>
> n=342
> 平均値 0.828
> 標準偏差 1.527
> 歪度    2.432
> 尖度    5.965
>
> なお,得点の範囲は0‐8点,0点が全体の60%以上です。

0点か1点の二件法で,得点範囲が0 - 8というのはどういうことでしょうか。
0/1で回答する8項目の合計点ということですか。
> 平均値 0.828
> 標準偏差 1.527
は,合計点の平均値と標準偏差ですか。

> 平均よりも標準偏差が大きい場合,どういう処理が適切なのでしょうか?また,これは解析するのに適切なデータといえるのでしょうか?

どういう処理とは,どのようなことをイメージしているのでしょうか。
変数変換ということもあり得ますが,示された情報からはとても正規分布を仮定できるようなものでもありません。

解析するのに適切かと言っても,どのように解析するのかその手法を明示しないと回答のしようがないです。

> どうかお分かりになりましたらご回答ください。お願いします。
回答に必要な情報を下さい。

     [このページのトップへ]


82. Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 17:43
> 0点か1点の二件法で,得点範囲が0 - 8というのはどういうことでしょうか。
> 0/1で回答する8項目の合計点ということですか。

 説明が不足していて申し訳ありません。全15項目の総合得点の範囲が0-8点ということです。「あり:1点」「なし:0点」で合計15点になります。

> 平均値 0.828
> 標準偏差 1.527
> は,合計点の平均値と標準偏差ですか。

 そうです。

> どういう処理とは,どのようなことをイメージしているのでしょうか。
> 変数変換ということもあり得ますが,示された情報からはとても正規分布を仮定できるようなものでもありません。

 今回のデータは2件法で,正規分布しないことが前提にあります。この偏りのあるデータで構造方程式モデリングにより確証的因子分析にかけたところ,モデルは支持されました(統計ソフトSPSS11.0とMplus)。しかしながら,回答分布が正規分布していないこと,標準偏差が平均値を超えていることを考えますとこのデータ自体が確証的因子分析に適さないのではないかという疑問があります。モデルの妥当性を論じるために,偏りのあるデータでも分析が可能であるという根拠を求めています。

     [このページのトップへ]


84. Re: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:01
>  今回のデータは2件法で,正規分布しないことが前提にあります。この偏りのあるデータで構造方程式モデリングにより確証的因子分析にかけたところ,モデルは支持されました(統計ソフトSPSS11.0とMplus)。しかしながら,回答分布が正規分布していないこと,標準偏差が平均値を超えていることを考えますとこのデータ自体が確証的因子分析に適さないのではないかという疑問があります。モデルの妥当性を論じるために,偏りのあるデータでも分析が可能であるという根拠を求めています。

因子分析にかけたデータは0/1 という二値をとる15変数ということですね。

二値データは連続変数として扱ってかまいません。最低水準の名義尺度でありながら,最高水準の間隔尺度(比尺度)です。二値データ間の相関係数は属性相関係数のφ係数と同じ(符号を適宜考えるとして)です。したがって,相関係数が定義できるということは,因子分析もできます。別の根拠となる例は,重回帰分析におけるダミー変数がまさに二値データです。更にその関連で言えば,数量化理論はダミー変数を使った多変量回帰に対応づけられます(数量化I類=重回帰分析など)。

     [このページのトップへ]


85. Re^2: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:03
「標準偏差が平均値を超えている」ということにこだわっているようですが,そのこだわりかたが誤って(?)います。もしその問題だけを解消するだけなら,得点を0/1とする代わりに,10/11とすればいいだけです(別に23/24でもなんでもいいです。要するに平行移動してやりさえすれば,標準偏差は平均値より小さくすることができます)

今の場合,その現象が訴えている本当の問題は,分布がゆがんでいるということです。0が60%も占めるというのは相当にゆがんだ分布ですね。

ダミー変数を使った因子分析の場合に,0/1の割合が極端な場合には正確な構造が抽出できないというのを,堀先生が fpr に書いていたような記憶があります。

実例を R で次のコメントへ

     [このページのトップへ]


87. Re^3: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:18
まずは関数の定義
2変数データの生成
gendat2 <- function(nc, r)
{
    z <- matrix(rnorm(2*nc), ncol=2)
    res <- eigen(r2 <- cor(z))
    coeff <-  solve(r2) %*% (sqrt(matrix(res$values, 2, 2, byrow=TRUE))*res$vectors)
    z <- t((t(z)-apply(z, 2, mean))/sqrt(apply(z, 2, var)*(nc-1)/nc)) %*% coeff
    z %*% chol(matrix(c(1, r, r, 1), ncol=2))
}

カットポイントで切って,0/1データに変換
cor2 <- function(x, y, cutpoint)
{
    x <- x > cutpoint
    y <- y > cutpoint
    cor(x, y)
}

シミュレーション本体
sim <- function(n, r)
{
    result <- gendat2(n, r)
    x <- result[,1]
    y <- result[,2]
    cat("rho =", cor(x, y), "\n")
    for (i in seq(0.0, 2, 0.25)) {
        cat("cutpoint =", i, "  r =", cor2(x, y, i), "\n")
    }
}

     [このページのトップへ]


88. Re^4: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:23
母相関係数0.3の二変数(2000組のデータ)を cutpoint の上下で0/1変数に変換して相関係数を求める。
> sim(2000, 0.3)
rho = 0.3
cutpoint = 0 r = 0.2189907
cutpoint = 0.25 r = 0.2064473
cutpoint = 0.5 r = 0.1908050
cutpoint = 0.75 r = 0.1684397
cutpoint = 1 r = 0.1528248
cutpoint = 1.25 r = 0.1634991
cutpoint = 1.5 r = 0.1226184
cutpoint = 1.75 r = 0.08153534
cutpoint = 2 r = -0.02299517
カットポイントが上がる(0/1の分布にゆがみが強くなる)と母相関係数とは似てもにつかない標本相関係数が得られる。

繰り返すたびに新たな標本を作り,シミュレーションを行う。同じような結果になる。
> sim(2000, 0.3)
rho = 0.3
cutpoint = 0 r = 0.1589069
 省略
cutpoint = 2 r = 0.07057866

母相関係数が高いと,cutpoint の影響は受けにくくなる(とはいっても,母相関係数とはかなり異なった数値である)
> sim(2000, 0.8)
rho = 0.8
cutpoint = 0 r = 0.594228
cutpoint = 0.25 r = 0.5930804
 省略
cutpoint = 1.75 r = 0.4796767
cutpoint = 2 r = 0.4125937

     [このページのトップへ]


90. Re^5: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:32
結論

0/1データにおいて,相関係数を計算することは,理論的には何の問題もない。0と1の割合がどんなにゆがんでいても,それは相関係数の計算には何の関係もない。

しかし,2件法による測定は,情報をあまりにも捨てすぎている(プアーな調査法)ため,母相関係数をちゃんと把握できているかどうかの保証はない。

また,0/1の割合が極端な場合には,さらに問題を大きくしている。

     [このページのトップへ]


94. Re^8: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 19:15
ありがとうございました。大変参考になりました。またご助言をいただきにくることがあると思いますがよろしくお願いします。

追加で恐縮ですが,堀啓造先生のfprは2002年のものでしょうか?すいません,お分かりになりましたら教えてください。

     [このページのトップへ]


91. Re^6: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 18:44
> 0/1データにおいて,相関係数を計算することは,理論的には何の問題もない。0と1の割合がどんなにゆがんでいても,それは相関係数の計算には何の関係もない。
>
> しかし,2件法による測定は,情報をあまりにも捨てすぎている(プアーな調査法)ため,母相関係数をちゃんと把握できているかどうかの保証はない。
>
> また,0/1の割合が極端な場合には,さらに問題を大きくしている。

 ありがとうございます。つまり偏りの大きいデータでの解析はリスクが大きいということでしょうか?

 今回本データをもとに尺度開発を行っているのですが,どうしてもこの問題が避けて通れません。そこで極端に偏っている総合得点が0点のケースを削除することを試みました。一応許容水準は満たしていましたが,この方法で正しいという確信が持てません。他にこのような極端な偏りのあるデータを用いた分析法があるのでしょうか?

     [このページのトップへ]


92. Re^7: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 18:53
>  ありがとうございます。つまり偏りの大きいデータでの解析はリスクが大きいということでしょうか?

そう言うことだと思います。
尺度の開発と言うことならなおさら,用語法に気を配ってあまりひどく偏らないようにすべきですし,極端に偏るような項目は差し替えるべきでしょう。また,2件法というのも避けたいところですね(少なくても3件法,奇数を避けるという意味では4件法というのがいいと思います)。

> そこで極端に偏っている総合得点が0点のケースを削除することを試みました。

それは,そのような特性を持っている人を除いているわけですから,母集団を限定していることになるので,できあがった尺度はそのような特性を持っている人には使えないと言うことになると思います。(結局合計点が0になるような回答になるのかもしれませんが,たとえば散布図を描いて,そのうちからある条件を満たす人を除いて計算された相関係数がどういう意味を持つかと言うことを考える必要がでてきませんか?)

> 他このような極端な偏りのあるデータを用いた分析法があるのでしょうか?

データが持っている問題(欠陥)を解決してくれる分析方法というのはないと思います。

     [このページのトップへ]


93. Re^8: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 19:01
> >  ありがとうございます。つまり偏りの大きいデータでの解析はリスクが大きいということでしょうか?
>
> そう言うことだと思います。

でもまあ,前出のシミュレーションの結果を見ても分かるように,母相関係数より大きな標本相関係数がでてくるようなこともなさそうなので,そのような相関係数行列に基づいても解釈可能でモデルも支持されたというなら,結果オーライなのかもしれません(実際にはモデルにもっと近いのかもしれないという意味です)。

もっとも,シミュレーションは,二変数が潜在的に二変量正規分布にしたがっているということに基づいていますから,二変量正規分布に従わない場合にも同じような結果になるかどうかはわかりません。

     [このページのトップへ]


95. Re^9: Re3: 偏りのあるデータについて  noriko  2002/12/02 (月) 19:25
すいません,よくわからないところがありましたのでお尋ねします。

> でもまあ,前出のシミュレーションの結果を見ても分かるように,母相関係数より大きな標本相関係数がでてくるようなこともなさそうなので,そのような相関係数行列に基づいても解釈可能でモデルも支持されたというなら,結果オーライなのかもしれません(実際にはモデルにもっと近いのかもしれないという意味です)。

ご回答いただいたことについて,参考となる文献や本をご存知でしたら教えていただけますか?

> もっとも,シミュレーションは,二変数が潜在的に二変量正規分布にしたがっているということに基づいていますから,二変量正規分布に従わない場合にも同じような結果になるかどうかはわかりません。

勉強不足で恐縮ですが,二変量正規分布とはどういうものでしょうか?

     [このページのトップへ]


96. Re^10: Re3: 偏りのあるデータについて  青木繁伸  2002/12/02 (月) 21:02
>> でもまあ,前出のシミュレーションの結果を見ても分かるように,母相関係数より大きな標本相関係数がでてくるようなこともなさそうなので,そのような相関係数行列に基づいても解釈可能でモデルも支持されたというなら,結果オーライなのかもしれません(。

> ご回答いただいたことについて,参考となる文献や本をご存知でしたら教えていただけますか?
そんな細かい(特殊な)ことを書いている本はありそうにない...

ありません。私が考えるにはこうだろうということです。それが正しいかどうかは保証できません。

> 勉強不足で恐縮ですが,二変量正規分布とはどういうものでしょうか?

えっ...
二次元正規分布という名前なら分かりますか。同じものを表す用語ですが...

二つの変数がそれぞれ正規分布し,二変量間に特定の相関係数があるものです。
多変量正規分布というのは,多変量のそれぞれが正規分布し,それぞれの変量間にある相関係数行列が規定されるものです。

視覚的には,
http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/2dim-normal.html
の図とか,
http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/r-anime.html
のアニメーションを見てください。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 022 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る