No.00385 SASのデータ整理と相関検定  【ミナミ】 2006/06/19(Mon) 18:41

はじめまして。大学生のミナミと申します。

本日は,二つほど質問させていただければと思います。

現在,以下のようなデータを扱っています(これは架空のデータですが)。

(回答者,対象,質問項目,得点)の順で
回答者1 歯医者 美しい 3
回答者2 歯医者 美しい 2
回答者3 歯医者 美しい 4
回答者1 弁護士 美しい 5
回答者2 弁護士 美しい 3
回答者3 弁護士 美しい 1
回答者1 歯医者 怖い 2
回答者2 歯医者 怖い 3
回答者3 歯医者 怖い 1
回答者1 弁護士 怖い 2
回答者2 弁護士 怖い 3
回答者3 弁護士 怖い 4

このとき,「美しい(対象がどれほど怖いか)」と「怖い(対象がどれほど怖いか)」
の相関を調べたいと考えています。

質問1:技術的問題
しかし,これをsas(もしくはSPSS)で行う時には,このフォーマットのまま行う
やり方がわかりません。
小生が知っている限りでは,「美しい」の評点のコラムと「怖い」の評点のコラム
を作ることしか思い浮かばないのですが,大量データゆえ手作業では大変苦しいです。

質問2:統計学的な問題
また,「美しい」ー「怖い」の相関を取る場合,上記の例では,N=6とすることで
大丈夫でしょうか。のべ人数という形になるとおもいます。

それでは,大変長文になってしまいましたが,教えていただければ幸いです。
よろしくお願いします。

No.00387 Re: SASのデータ整理と相関検定  【青木繁伸】 06/06/19(Mon) 18:52

> 質問1:技術的問題
> しかし,これをsas(もしくはSPSS)で行う時には,このフォーマットのまま行うやり方がわかりません。
> 小生が知っている限りでは,「美しい」の評点のコラムと「怖い」の評点のコラムを作ることしか思い浮かばないのですが,大量データゆえ手作業では大変苦しいです。

プログラムを書くなりなんなりして,適切なデータフォーマットに書き換える必要があるでしょう。

> 質問2:統計学的な問題
> また,「美しい」ー「怖い」の相関を取る場合,上記の例では,N=6とすることで大丈夫でしょうか。のべ人数という形になるとおもいます。

あなたが何を知りたいのかにもよりますが,データ行列というのは,「延べ」というのは禁物ですよ。
データ行列の一行は,一観察単位

すなわち,
回答者nについて,歯医者は美しいか 歯医者は怖いか 弁護士は美しいか 弁護士は怖いか
というようになるべきでしょう

No.00395 Re: SASのデータ整理と相関検定  【DISIR】 06/06/19(Mon) 22:36

変数とそのとる値とを区別して考え,後は職業で層別するだけです。
1 dentist 3 2
2 dentist 2 3
3 dentist 4 1
1 att 5 2
2 att 3 3
3 att 1 4

No.00396 Re: SASのデータ整理と相関検定  【青木繁伸】 06/06/19(Mon) 22:46

なるほど。層別して分析すれば良いですね。
しかし,このようなデータ構造にしておいたら,延べの分析(n数の水増し分析)に意識せずに落ち込みそうです。
データを採る単位(行),その属性(列)ということはしっかり意識しておくのが間違いを産まないと思います。

No.00418 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/22(Thu) 08:27

>青木先生,DISTIRさん 
ミナミです。ご返信ありがとうございます。

>あなたが何を知りたいのかにもよりますが,(青木先生)

私が知りたいことは,二つあります。

(1)形容詞群がどのようにグループ化されるか(因子分析?)
(2)職業群がどのようにグループ化されるか(因子分析?)

SD法のような感じだと思います。

>変数とそのとる値とを区別して考え,後は職業で層別するだけです。(DISTIRさん)

(1)美しいコラム,怖いコラムを新たに(手作業で)作るといったフォーマットでよろしいでしょうか。
(2)また,大変不勉強で申し訳ないのですが,層別(歯医者,弁護士)で分析する方法をよろしければ教えていただけると嬉しいです。

本当に有益な情報をありがとうございます。
周りに尋ねる人がおりませんので,大変助かっております。


No.00421 Re: SASのデータ整理と相関検定  【青木繁伸】 06/06/22(Thu) 11:03

> >あなたが何を知りたいのかにもよりますが,(青木先生)

> 私が知りたいことは,二つあります。

> (1)形容詞群がどのようにグループ化されるか(因子分析?)
> (2)職業群がどのようにグループ化されるか(因子分析?)

だったら余計に
> すなわち,
> 回答者nについて,歯医者は美しいか 歯医者は怖いか 弁護士は美しいか 弁護士は怖いか
> というようになるべきでしょう

単純な因子分析では
回答者nについて,A の評価,B の評価,C の評価,..., Z の評価
みたいになっていて,対象 A〜Z のグループ分けということでしょう。評価というのは言葉の文で,A〜Z が質問で,それに対する貴方の回答というのも同じ構造でしょう。

今回の貴方の場合には
回答者nについて,A のaについての評価,A のbについての評価,A のcについての評価,B のaについての評価,B のbについての評価,B のcについての評価,C のaについての評価,C のbについての評価,C のcについての評価
のようになっていて,A~C, a〜c の分類といだけでしょう?
複雑そうに見えるけど同じです。

結論:データ行列を用意するときには水増しは禁物

No.00423 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/22(Thu) 11:34

早速のご返信ありがとうございます。

私は,まず,形容詞群(美しい,怖い等)の類似性を調べたいのですが,

A-a,A-b,A-c,B-a,B-b,B-c・・・(大文字:職業,小文字:形容詞)といったようにした時に,因子分析をかけると
「歯医者の美しい」と「弁護士の美しい」が同じグループになったというような結論になると思います。

そうではなく,「かわいい」と「美しい」という二つの形容詞が同じようなものであることを確かめたいと思っています。

同様に,職業に関しても,「歯医者」と「弁護士」が同じ群に入るのかを調べたいです。

つまり,A-a,A-b,A-c,B-a,B-b,B-c・・・といったようにした時に,大文字のみ,もしくは小文字のみのグループ化を調べたいのですが,それは難しいことでしょうか。

もし,可能でしたら,その方法を教えていただけると幸いです。

よろしくお願いいたします。



No.00426 Re: SASのデータ整理と相関検定  【MK】 06/06/22(Thu) 12:05

類似性を計る尺度としてjaccard係数というものがあります。
ミナミさんの例だと,
jaccard係数=(美しいとかわいいが同時に出てくる数)÷(美しいまたはかわいいがでてくる数)
というものです。


美しいとかわいいという二つの形容詞の類似性を計るには,
弁護士と歯医者に関わらず,美しいと発言したかどうかを0-1で,
かわいいと発言したかを0-1で表します。

例えば
回答者n=(美しい,かわいい)と表し,

回答者1=(1,1)
回答者2=(0,1)
回答者3=(1,0)
回答者4=(1,1)
が得られたとすると,
jaccard係数=2/4=0.5で
かわいいと美しいの類似度は0.5と表すことができると思います。

申し訳ありませんが,SASを使ったことがないので,
SASでどうするかはわかりません。
ただ,Rでならプログラムを以前書いたことがあります。


 

No.00437 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/23(Fri) 12:17

>MKさん

貴重な情報をありがとうございます。
jaccard 係数ですか,調べてみます。

ただ,美しいやかわいいに5段階評定させているので,そのあたりが0−1にできるかはわかりません。

また,この場合も弁護士に対する発言と歯医者に対する発言という1人に対して2つの回答というのべ人数の問題が出てきそうですね。

やはり,形容詞のまとまりを見るには,歯医者ごと,弁護士ごとに見るということしかないのでしょうか。

歯医者では,「美しい」と「かわいい」が同じ群に入った。
弁護士でも,「美しい」と「かわいい」が同じ群に入った。
よって,この二つには,職業にかかわらず背後に共通の因子が存在しそうである。

といった感じでしょうか。。。

No.00479 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/26(Mon) 16:09

度々,申し訳ありません。ミナミです。

先攻研究を精査していたのですが,そこでは,美しいの平均値(歯医者の美しい評点,弁護士の美しい評点)とかわいいの平均値(歯医者のかわいい評点,弁護士のかわいい評点)とを相関をとっているようです。

例えば,上述の回答者1では「美しい」の平均値は(3+5)÷2=4,「怖い」の平均値は(2+2)÷2=2ということです。

このようにすれば,形容詞を比較するとき水増しの問題はなくなるとは思うのですが,いかがでしょうか。
この方法は,統計学的に問題があるでしょうか。

よろしくお願いいたします。

No.00480 Re: SASのデータ整理と相関検定  【青木繁伸】 06/06/26(Mon) 18:17

こんなデータがあるとします。
A, B は,歯医者と弁護士
1, 2 は,美しいと怖い
   A1 B1 A2 B2
1 2 2 3 4
2 4 4 1 2
3 3 4 3 3
4 1 2 4 3
5 3 3 3 3
6 4 4 2 1
7 2 3 4 4
8 4 3 2 1
9 3 3 2 3
10 3 3 3 3
11 3 4 3 3
12 2 3 3 3
13 3 3 3 3
14 3 3 3 3
15 5 3 1 2
16 3 2 3 3
17 2 1 5 4
18 3 3 4 3
19 2 2 3 5
20 4 4 3 4
> cor(x, method="spearman") スピアマンの順位相関係数を求めてみる
A1 B1 A2 B2
A1 1.0000000 0.6580077 -0.7461732 -0.6764700
B1 0.6580077 1.0000000 -0.4620391 -0.4478895
A2 -0.7461732 -0.4620391 1.0000000 0.6684863
B2 -0.6764700 -0.4478895 0.6684863 1.0000000
とりあえず,歯医者を美しいと思う人は弁護士も美しいと思い,
歯医者を怖いと思う人は弁護士も怖いと思う。
また,美しいと思う人は怖いと思わない
というような仮説に基づくテストデータですね。
> y <- (x[,1]+x[,2])/2 美しいの平均値を求める
> z <- (x[,3]+x[,4])/2 怖いの平均値を求める
> cor(y, z, method="spearman") 相関係数を計算する
[1] -0.7129426 こんな風ですね。
A1とA2, A1とB2, B1とA2, B1とB2 の相関係数は
-0.746, -0.676, -0.462, -0.448 だったわけですから,
これら4つの相関係数を要約できているかちょっと疑問ですね。
実際のデータは当然,上に示したものとは違うわけですが,形容詞の組み合わせが4通りあるんですから,その4通りの結果を生かすような分析を行うのがよろしいのでは?データの段階で平均値を取るというのは,情報を捨てているということなんです。もったいないですね。

No.00514 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/30(Fri) 15:28

青木先生

実証的な説明をありがとうございます。

そうですね。よく考えたのですが,元々のデータを生かすためにも,「弁護士」「歯医者」をダミー変数として,「怖い」(説明変数)から「美しい」(目的変数)を予測するといった回帰分析のアプローチで取り組んでみようと思います。

また,質問等を差し上げるときがあるかと存じ上げますが,よろしくお願いいたします。

No.00516 Re: SASのデータ整理と相関検定  【にゃんちゅう】 06/06/30(Fri) 18:06

>A-a,A-b,A-c,B-a,B-b,B-c・・・(大文字:職業,小文字:形容詞)といったようにした時に,因子分析をかけると
「歯医者の美しい」と「弁護士の美しい」が同じグループになったというような結論になると思います。

>そうではなく,「かわいい」と「美しい」という二つの形容詞が同じようなものであることを確かめたいと思っています。

いくつか方法があるかと思います。まずは「…2つの形容詞が同じようなものである」というのをどうモデル化するのかという問題です。

一般的には3相因子分析(3 mode factor analysis)を使って,概念×尺度×人間の交互作用があるかを調べたりします。これは立証が結構面倒です。特に尺度がかなりきちんとした構造をもっていないといい結果がでません。これを改良した方法を豊田秀樹氏が提案sていたりします。SASです。

共分散構造分析を使って構造を確かめます。弁護士と歯医者の因子構造を比較するという手もあります。こっちのほうが明白な結果を導きだすでしょう。

共通の評価軸はあるのだが,軸の重みが違うというモデルもあります。

こういう風にどんなモデルを考えるかがまずあります。そのあとどう分析するかです。ですから,いきなりどう分析するかを聞いても答えはいいかげんです。

No.00517 Re: SASのデータ整理と相関検定  【ミナミ】 06/06/30(Fri) 19:04

>にゃんちゅうさん

ありがとうございます。そうですね,モデルを正確にする必要がありますよね。

私がいましているのは,弁護士,歯医者,警備員という各職業の「美しい」という評定が,どのようなファクターから規定されているのかということです。

美しい(目的変数)← 「怖い」 「お金もちそう」「権力がある」・・・etc.(説明変数)です。

このときに,各職業というのをダミー変数として回帰式に入れることで,美しいを説明する程度が,職業群ごとにどの程度異なるかを行おうとすることです(回帰係数の比較)。

>共分散構造分析を使って構造を確かめます。弁護士と歯医者の因子構造を比較するという手もあります。こっちのほうが明白な結果を導きだすでしょう。

もし,よろしければ,こちらの方法についての参考図書,ページ等教えていただければと思います。

皆様のおかげで少しずつ前進しております。大変感謝しております。

No.00518 Re: SASのデータ整理と相関検定  【青木繁伸】 06/06/30(Fri) 21:26

> 弁護士,歯医者,警備員という各職業の「美しい」という評定が,どのようなファクターから規定されているのか

これも,あくまでもたとえに過ぎないのかもしれないが。。。。


この三者が「美しい」と評価することが非常に苦しいと思うのは私だけでしょうか。
少なくとも,私がこういう質問「○○を美しいと思うか」と聞かれたら,「美しいの基準は何なのだろうか。みんな同じ基準に立てるのだろうか。」と疑い,回答放棄を選びます。

● 「統計学関連なんでもあり」の過去ログ--- 038 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る