★ 因子分析の欠損値対策 ★

3564. 因子分析の欠損値対策 HOJO 2004/06/28 (月) 16:34
├3566. Re: 因子分析の欠損値対策 青木繁伸 2004/06/28 (月) 16:47
│└3567. Re^2: 因子分析の欠損値対策 HOJO 2004/06/28 (月) 18:03
│ └3569. Re^3: 因子分析の欠損値対策 青木繁伸 2004/06/28 (月) 18:35
│  └3570. Re^4: 因子分析の欠損値対策 HOJO 2004/06/28 (月) 18:43
└3565. Re: 因子分析の欠損値対策 青木繁伸 2004/06/28 (月) 16:43
 └3568. Re^2: 因子分析の欠損値対策 HOJO 2004/06/28 (月) 18:35


3564. 因子分析の欠損値対策 HOJO  2004/06/28 (月) 16:34
先ほどは,大変失礼をいたしました。
あれから,pfaが相関行列を入力できることが分かったので,エクセルの分析ツール で相関行列を作成し,入力データとしたのですが,singularityが出て,solveで計算が停止してしまいました。単純にアンケートの全変数を対 象とした相関行列ではいけないのでしょうか。

     [このページのトップへ]


3566. Re: 因子分析の欠損値対策 青木繁伸  2004/06/28 (月) 16:47
> pfaが相関行列を入力できることが分かったので,エクセルの分析ツールで相関行列を作成し,入力データとしたのですが,singularityが出て,solveで計算が停止してしまいました。

変数の個数 > ケース数 であっても,相関係数を求めることはできますが,そのようなデータ(相関係数行列)から因子分析はできませんよ。

     [このページのトップへ]


3567. Re^2: 因子分析の欠損値対策 HOJO  2004/06/28 (月) 18:03
> 変数の個数 > ケース数 であっても,相関係数を求めることはできますが,そのようなデータ(相関係数行列)から因子分析はできませんよ。
これは,元のデータ(1,2,3,4,5というカテゴリー)で,空白の部分は0として,エクセルの分析ツールで全行数(162)について,相関行列を求め たものです。先ほど申し上げたNAを含む行をすべて削除して相関係数を求めたわけではありませんが,やはり無理でしょうか。

     [このページのトップへ]


3569. Re^3: 因子分析の欠損値対策 青木繁伸  2004/06/28 (月) 18:35
> これは,元のデータ(1,2,3,4,5というカテゴリー)で,空白の部分は0として,エクセルの分析ツールで全行数(162)について,相関行列を求め たものです。先ほど申し上げたNAを含む行をすべて削除して相関係数を求めたわけではありませんが,やはり無理でしょうか。

空白は無回答でしょう?無回答が 1 の選択肢よりも小さな値をとって良いのでしょうか?

欠損値の補間としては,変数ごとに欠損値をのぞいた平均値を求め,その平均値で置き換えるということが行われることもあります。

つまり,変数 a というのが
1, 2, 4, 2, 1, 3, NA, 3, NA, 5
などとなっていると,(1+2+4+2+1+3+3+5)/8 = 2.625 を二つの NA に代入するというようなことです。

これも,わざわざ平均値を取ったりするのが面倒なので,変数の取る値の中央の値,今の場合だと1〜5の5段階なら,単に3で置き換えるというようなこともあります。

しかし,いずれにしても,欠損値の置き換えは理論的な根拠に弱いところがありますので,クレームの付く可能性は大いにあるでしょう。

なお,欠損値が多すぎると言うことは,調査(データ)の信頼性にも疑問を投げかけられる可能性が大であるということも肝に銘じておくべきです。

     [このページのトップへ]


3570. Re^4: 因子分析の欠損値対策 HOJO  2004/06/28 (月) 18:43
 現実的なご回答をいただき有り難うございました.既にあるアンケート結果を目の前にして,途方にくれておりますので,これからアドバイスいただいたことを念頭にいろいろと試してみます.

     [このページのトップへ]


3565. Re: 因子分析の欠損値対策 青木繁伸  2004/06/28 (月) 16:43
> アンケートの全変数を対象とした相関行列ではいけないのでしょうか。

そうではありません。あなたのデータに問題があるのです。

> singularityが出て,solveで計算が停止してしまいました

相関係数行列が,従属なためです。
変数の個数が多いこと,その割にはケース数が少ないこと,似たような変数の存在が疑われることなど,いろいろあります。

いきなり全変数を用いて因子分析しようと言うのではなく,単相関係数などを眺めながら,因子分析にかける必要性のある変数を選んでいくのが吉でしょう。

なお,反応データが3段階であったかと思いますが,それは順序尺度変数であって,それを間隔尺度として因子分析に利用することにも注意が必要です。回答の偏る変数がないかどうか,チェックしておいた方がいいでしょう。

     [このページのトップへ]


3568. Re^2: 因子分析の欠損値対策 HOJO  2004/06/28 (月) 18:35
> 変数の個数が多いこと,その割にはケース数が少ないこと,似たような変数の存在が疑われることなど,いろいろあります。
  ジャンル別に因子分析を試みてみました。例えば営業員のジャンルとSEの2ジャンルの23個の変数について,pfaを適用したところ,2個の因子が抽出さ れ,それぞれ営業員,SEという因子でくくれそうに思えます。この営業員のジャンルには,営業員の評価要素となる変数と,営業員満足度という総合的な変数 との二つがあります。この場合,営業員満足度のような総合的変数は他の変数に従属しているはずだから取り除けということでしょうか。
> いきなり全変数を用いて因子分析しようと言うのではなく,単相関係数などを眺めながら,因子分析にかける必要性のある変数を選んでいくのが吉でしょう。
 上記の例でいうと,営業員満足度は,9個の要素変数との単相関係数をみると,このうち7ヶの変数において0.7を超えています.このような変数を取り除けということでよいでしょうか. 
>
> なお,反応データが3段階であったかと思いますが,それは順序尺度変数であって,それを間隔尺度として因子分析に利用することにも注意が必要です。回答の偏る変数がないかどうか,チェックしておいた方がいいでしょう。
  元々のデータは先に書いたように1,2,3,4,5です.ただこのようにすると,1や5のデータが出てこない場合があるので,これを1,2,3に整理した ものです.回答の偏るというのは,上のようにカテゴリーが存在しない変数があってはいけないという意味でよいのでしょうか.
 質問ばかりで大変恐縮ですが,よろしくお願いいたします.

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 029 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る