「統計学関連なんでもあり」の過去ログ--- 040

No.04190　主成分分析について　　【@@社員】　2007/08/20(Mon) 18:40

ホームユーステストで33項目のアンケート（5件法）で商品（日用雑貨）を評価しました。比較的相関係数の高い属性ははぶいて（ある程度経験的に）10項目に絞り主成分分析を行ったところ，累積寄与率を80%以上にするためには主成分が5つ必要になってしまい，それぞれの主成分が何を示しているのか分からない状態になってしまいます。（主成分1：40%，主成分2：15%，主成分3：9%，主成分4：7%，主成分5：6%）過去のテストに関しても同様のことが言えます。このようなケースの場合，アンケート項目の設定の仕方が悪いのかそれとも商品の性格上しょうがないのか，アドバイスお願いいたします。

No.04193　Re: 主成分分析について　　【青木繁伸】　2007/08/20(Mon) 19:29

> 比較的相関係数の高い属性ははぶいて（ある程度経験的に）10項目に絞り主成分分析

相関の低い項目を主成分分析しても，あまり特徴的な主成分は得にくいでしょう。極端に言えば，全く無相関の10変数を主成分分析するとそのあたりのことがよく分かるでしょう。そのような分析の結果は，固有値1の主成分が10個できます（主成分のおのおのが直交するということを考えれば自明なんですが）。

なお，一般的な場合，有効な主成分は固有値が1以上のものということになっていますので，あなたの分析の場合第2主成分までが有効ということではないでしょうか。その場合，累積寄与率が55%となり，それが高くない数値であるということであっても，それはどうしようもないことでしょう。

> アンケート項目の設定の仕方が悪いのかそれとも商品の性格上しょうがないのか

どちらかというと前者でしょう。
しかし，根本的には，前述の通り「比較的相関係数の高い属性ははぶいて」という対応がこのような結果を生み出したのでしょう。

主成分分析よりは因子分析が向いているのではないかと思われ，また，より適切にはSEMなどを行うのがよいでしょう。

No.04196　Re: 主成分分析について　　【@@社員】　2007/08/21(Tue) 09:02

「比較的相関係数の高い属性ははぶいて」というのは相関の高い，似たような属性を省くといった意味なのですが，このやり方自体あまり好ましくないのでしょうか？
SEMは使ったことがないのですが，具体的にどのようなケースの時に有用なのか教えてください。よろしくお願いいたします。

No.04197　Re: 主成分分析について　　【青木繁伸】　2007/08/21(Tue) 11:00

> 「比較的相関係数の高い属性ははぶいて」というのは相関の高い，似たような属性を省くといった意味なのですが，このやり方自体あまり好ましくないのでしょうか？

相関が高く，似たような項目を除くということは結果として相関の低いものが残る（それぞれの項目はユニークなものということになる）。
しかし，そのような場合には，各項目がユニークなのだから，似たような項目を集めて総合特性値を作ることができない（つまり，各項目がオンリーワンなのだ）。

なお，「ある程度経験的に」項目を選別するのは，主観が入ってしまい，本当に妥当かどうかわからない。

33項目全部を使って主成分分析を行って，その結果をみて項目を絞るなり，そのまま使うなりをした方が良いと思います。

使用した変数間の相関係数がどれくらいの大きさか分かりませんが，以下のような例を見てください。この例では一番大きい相関係数（の絶対値）は0.1程です。固有値が1以上の主成分は5つですが，累積寄与率は58％しかありません。各主成分の負荷量を見てみるとあまり大きなものはありません。各変数が5つの主成分で説明される割合もどちらかといえば低いですね。
> set.seed(12345)
> x <- matrix(runif(100, min=-0.1, max=0.1), 10, 10)
> diag(x) <- 1
> d <- round(gendat(20, x)*10+50, 0)
> colnames(d) <- paste("X", 1:10, sep="")
> round(cor(d), 3)
        X1     X2     X3     X4     X5     X6     X7     X8     X9    X10
X1   1.000 -0.084 -0.011  0.070  0.070  0.090  0.067  0.038  0.066  0.102
X2  -0.084  1.000 -0.041 -0.109 -0.022  0.067 -0.040  0.010  0.003  0.065
X3  -0.011 -0.041  1.000 -0.055  0.091 -0.043  0.083 -0.024 -0.109 -0.083
X4   0.070 -0.109 -0.055  1.000  0.044 -0.046  0.036 -0.015 -0.094  0.009
X5   0.070 -0.022  0.091  0.044  1.000  0.038  0.090 -0.087 -0.054  0.036
X6   0.090  0.067 -0.043 -0.046  0.038  1.000 -0.065  0.034 -0.029  0.009
X7   0.067 -0.040  0.083  0.036  0.090 -0.065  1.000  0.095  0.068  0.046
X8   0.038  0.010 -0.024 -0.015 -0.087  0.034  0.095  1.000 -0.003  0.062
X9   0.066  0.003 -0.109 -0.094 -0.054 -0.029  0.068 -0.003  1.000 -0.077
X10  0.102  0.065 -0.083  0.009  0.036  0.009  0.046  0.062 -0.077  1.000
> princomp2(d)
                     PC1     PC2     PC3     PC4     PC5 Contribution
X1                 0.487   0.450  -0.043   0.077  -0.368     0.583
X2                -0.436   0.230   0.346  -0.357   0.069     0.495
X3                 0.273  -0.515   0.123  -0.510   0.046     0.617
X4                 0.448  -0.041   0.014   0.613   0.193     0.615
X5                 0.500  -0.147   0.343  -0.212  -0.344     0.553
X6                -0.079   0.367   0.442  -0.061  -0.436     0.530
X7                 0.500   0.101  -0.349  -0.460   0.154     0.617
X8                 0.054   0.448  -0.186  -0.246   0.492     0.541
X9                -0.170   0.242  -0.659  -0.124  -0.460     0.749
X10                0.209   0.520   0.326  -0.022   0.319     0.524
Eigen.values       1.285   1.219   1.147   1.105   1.068
Proportion        12.845  12.192  11.468  11.054  10.681
Cumulative.prop.  12.845  25.037  36.505  47.559  58.240
SEM はモデルがあるときのことなので，今回は適用できるかどうか分かりません。あなた次第です。

No.04213　Re: 主成分分析について　　【@@社員】　2007/08/23(Thu) 12:23

アドバイスありがとうございます。SEMも勉強しようと思います。