「統計学関連なんでもあり」の過去ログ--- 042

No.07743　ANOVAについて　　【くじら】　2008/09/25(Thu) 05:03

質問させて頂きます。

バターと3種類の異なった油を使って，4種類のケーキを作りました。
その4種類を25人に食べてもらい，匂いや好みなどを，7段階の回答で，質問紙調査をしました。
その4種類の中で，どれが一番好ましい(7)，または好きではない(1)との答えが多かったのか，回答の平均値で，4種類を比較したいと考えています。
この場合，4つのケーキに対する調査対象者の回答の平均値を比較する方法は，ANOVA　一元配置分散分析でよろしいでしょうか？

また，回答の点数が正規分布しているか，Levene 検定で，確認する必要がありますか？
ソフトはSPSSを使っています。

お手数をおかけし申し訳ありませんが，ご教示，どうぞよろしくお願いいたします。

No.07745　Re: ANOVAについて　　【波音】　2008/09/25(Thu) 09:37

1要因の分散分析でよいと思います。ただし，各ケーキを食べた人がそれぞれ別の人であれば，ということです。もし1人の被験者にいくつかの種類のケーキを複数食べて評価させたりした場合は「対応あり」のデータとして解析する必要があるかもしれません。

>　回答の点数が正規分布しているか，Levene 検定で，確認する必要がありますか？

1 回1回検定をして確かめるように言われる方もいますが，私はグラフを書いてみて正規分布に従うだろうと仮定できる（明らかにどちらかの回答に分布が偏っていないか）ようであれば，とくに検定とかをする必要まではないと思うのです。仮に少し左よりの分布とかであっても，それは対数変換などの変数変換によって解決できる場合もあります。

No.07759　Re: ANOVAについて　　【くじら】　2008/09/25(Thu) 19:32

波音さま　　お返事，どうもありがとうございました。

食べた人は，同じ25名で，それぞれ4種類のケーキを食べて，質問紙に7段階で7点として考え，「対応あり」のANOVAとしたのですが，今，教員から，対応なしの検定を勧められました。「対応あり」ANOVAは，やったことがないからという理由で，いまいち納得がいかないのですが。

この場合，「対応あり」「対応なし」のANOVAで，どちらでもよいのでしょうか？

ただ，SPSSの場合，データセット自体の入力の仕方を変えなければならないうえ，統計手法として，適切な方法を知りたいと思います。

もしよろしければ，お考えを聞かせていただければと思います。どうぞよろしくお願いいたします。

No.07761　Re: ANOVAについて　　【波音】　2008/09/25(Thu) 22:36

対応ありのデータか対応なしのデータかを区別することは重要です。
        |   A        B        C        D
-----------------------------
sub 1 |  n11     n12     n13     n14
sub 2 |  n21     n22     n23     n24
sub 3 |  n31     n32     n33     n34
完全に独立なデータというのは，n11からn34までの被験者が全て異なる人間であるということです。つまり，12人の被験者がいるということですね。

一方で対応ありのデータというのは，n11-n14は同一の被験者である場合です。同様にn21-n24で1人，n31-n34で1人なので，この場合は全部で3人の被験者がいることになります。

それで，両者それぞれに適する分析方法は決まっているので，対応ありのデータに（独立である場合に適用すべき）分散分析を行ってしまうと，誤った結論を導いてしまいます。

だからある意味では「やったことないからやらない」という考え方は正しくて，実験計画の段階で自分が扱えるデータと実験制約などを踏まえてデータをとるのが重要なわけです。

ただ，

>　「対応あり」ANOVAは，やったことがないから

という理由で拒否されるのは，ちょっと無茶な気もしますが。。。

GLMを使いこなすのは大変ですが（対応ありのデータをGLMで解析しようとするとけっこうお勉強しないといけない），とりあえず分析の内容をしって公式どおりに計算するだけなら参考書を読みながら「対応ありのデータに適した分散分析」を行うべきでしょう。

例えば，最近出たもので分かりやすい参考書としては石村・石村「入門はじめての分散分析と多重比較」東京図書（2008）などがあります。

No.07762　Re: ANOVAについて　　【くじら】　2008/09/26(Fri) 03:09

波音さん，お返事，どうもありがとうございました。

私なりにいろいろ調べて，やはり「対応あり」ANOVAで，GLMという方法が適切だとおもっています。

被験者25名が回答した4種類のケーキの「におい」や「嗜好性」などの「好き・嫌い」などの7段階のデータを，GLMで解析して，もしGLMで有意であれば，どのサンプルとどのサンプルに有意差があるのか，Bonferoniの多重比較で検討しようと思っていました。

ただ，今まで，「対応なし」ANOVAで解析してきたと言われてしまい，困っています。

両方やってみて，「たぶん回答は同じでしょ」といわれましたが，私が勉強した限りでは，「対応あり」とするか，「なし」とするかで，SPSSのデータの入力方法も異なれば，当然，異なった・間違った解析・解答をえるのではないかと思いますが，そのように考えてよろしいでしょうか？

だから，適切な統計方法で，解析する…のですよね。

No.07772　Re: ANOVAについて　　【波音】　2008/09/26(Fri) 13:02

>　異なった・間違った解析・解答をえるのではないかと思いますが，そのように考えてよろしいでしょうか？

それが正しいです。でもその担当教官（？）が「対応なしのデータとして解析しなければ受け付けない」というのであれば，それに従うしかないということもあります（現実的に）。

ちなみに，擬似反復はすぐに分かります。実験には10人そこそこの被験者しかいないのに，分散分析表の自由度が明らかに高すぎる場合などは，まず間違いなく擬似反復に気づかずに解析しています。

No.07781　Re: ANOVAについて　　【くじら】　2008/09/27(Sat) 19:32

お返事，どうもありがとうございました。
統計手法については，教員からは，対応なしの単変量解析(Univariate Analisis)を使って解析をすすめるように指示をうけました。
2種類のSPSS用「対応なし・あり」用のデータベースを作ったので，結果を比較したいと思います。

また，同じ調査で，被験者に，ケーキ4種類について，好みの順位・1位・2位・3位・4位をつけてもらいました。
　　　　　　　　　　　　1位　　　2位　　　3位　　　4位
バター　　　　　　　　　7 (人)   8        6        4
オリーブ油              1        4        9       11
サンフラワー油          6        4        7        8
キャノーラ油           11        9        3        2
この順位に意味(群間に差)があるのか，検定しなさいと指示を受けました。

または，1位は4点　2位は3点，3位は2点，4位は1点として，得点化してしまい，
バター　　　　　　　　　68点
オリーブ油              45点
サンフラワー油          58点
キャノーラ油          　79点
として，キャノーラのケーキが一番人気があったとする結果を，統計で証明したいのですが，ケーキ4種類の比較を検定する場合，どのような方法が妥当でしょうか？

ご教示願えればと思います。どうぞよろしくお願いいたします。

No.07782　Re: ANOVAについて　　【青木繁伸】　2008/09/27(Sat) 20:21

あなたからも意見を述べればよいと思いますけど？学習成果を反映するのが卒論（授業）でしょう。

No.07784　Re: ANOVAについて　　【くじら】　2008/09/27(Sat) 23:30

学習成果として，このデータは，同一の被験者が，4種類のケーキをたべたのだから，対応ありのANOVAと言いましたが，「対応ありのANOVAとは，時間差があって，実験の前後の比較の時に使うもので，そもそも使ったことがないから，わからない」と断言されてしまい，「知らない」と言い切られ，これまで，この方法で全員がやってきたと言われると説得する気がなくなりました。

実際のところ，同一人物が，4種類を食べているので「対応あり」のANOVAとした方が，よいのですよね？

また，順位法についてですが，4群の比較なので，Friedman 検定か，クラスカル・ワリス検定で，行いたいと思っていますが，ここでも「対応あり」とするか，「対応なし」とするかで，統計の選択が異なると思います。

「対応あり」として検定することは，間違いでしょうか？

また，上記のように得点化して，4種類のケーキをFriedman 検定か，クラスカル・ワリス検定で比較することは，正しいのでしょぅか？

ご教授の程，どうぞよろしくお願いいたします。

No.07790　Re: ANOVAについて　　【知ったかぶり】　2008/09/29(Mon) 10:00

>また，上記のように得点化して，4種類のケーキをFriedman 検定か，クラスカル・ワリス検定で比較することは，正しいのでしょぅか？

もともとが「順位」のデータですから,「得点化」するまでもなく,そのままFriedman 検定を行えばよいと思います．「対応あり」なので,クラスカル・ワリス検定は不適当です．両方の検定を比較すると,おそらくクラスカル・ワリスの方がP値が小さくなるのではないかと思いますが,その結果を採用してはいけません．

No.07793　Re: ANOVAについて　　【くじら】　2008/09/30(Tue) 07:24

知ったかぶりさま，お返事，どうもありがとうございました。
やはり「対応あり」のデータとして教員を説得しようと，情報を集めることにしました。
どうなるかわかりませんが，とりあえず試みてみたいと思います。

> ちなみに，擬似反復はすぐに分かります。実験には10人そこそこの被験者しかいないのに，分散分析表の自由度が明らかに高すぎる場合などは，まず間違いなく擬似反復に気づかずに解析しています。

今，最初の「対応あり」ANOVAのデータとして検定したら，
Source of variation  Sum squares  Degrees of freedom  Mean sum of square  F-ratio  P-value
Test(A)                8.798              3               2.933            2.858    0.043
Subjects(S)           89.163             25               3.567
A×S                  76.952             75               1.026
Total                174.913            103
という結果になり，自由度が103となりました。
大変申し訳ないのですが，上記の「自由度が明らかに高すぎる場合」というのは，どの位高い場合を指すのでしょうか？

因みに，「対応なし」のUnivariate と「対応あり」のrepeated-measured designで検定すると，有意差が出たところは一致しました。しかし，その後のtukeyとBonferiniでは結果が異なりました。
お手数をおかけ致しますが，どうぞよろしくお願いいたします。

No.07794　Re: ANOVAについて　　【青木繁伸】　2008/09/30(Tue) 08:32

> 「自由度が明らかに高すぎる場合」というのは，どの位高い場合を指すのでしょうか？

「明らかに高すぎる」とか「どのくらい高い場合」とか言うことではないのです。
そもそも，検定統計量の計算式が違うのですから，自由度の数え方も違うのです。
対応のあるデータを対応のないデータと見て検定するのは間違っているので，どの程度間違っているかと言うことではないのです。

波音さんが「分散分析表の自由度が明らかに高すぎる場合などは」といったのは，被検者が25人しかいないような場合でも，自由度が25より大きければ，誰が見ても明らかにおかしい，つまり，本来対応のあるデータなのに対応のないデータと見て誤った検定をしたことが分かるでしょうということです。

> 因みに，「対応なし」のUnivariate と「対応あり」のrepeated-measured designで検定すると，有意差が出たところは一致しました

たまたまでしょう。有意か有意でないかと言うことだと同じ結果になっても，両方の検定手法でP値が異なるので，結果が食い違うこともあるということ。

No.07796　Re: ANOVAについて　　【青木繁伸】　2008/09/30(Tue) 11:36

らちがあかないので，シミュレーションしました。有意差ありかなしか，ちょうどギリギリの状態になるようにデータを作ってあります。
パラメトリック検定においては，対応がないとして検定すると，自由度の水増しが明らかです（というか，繰り返しますが，不適切な検定です）。対応がないとして検定すると5%の有意水準で有意ですが，対応があるとして検定すると有意な差があるとはいえないということになります。ノンパラメトリック検定においても，同じ事になります。
> set.seed(123)
> x <- rnorm(4*25, mean=0:3*0.224)
> x <- findInterval(x, c(-0.6, 0, 0.2, 0.6, 0.9, 1.4)) # 評価値
> Tr <- factor(rep(1:4, 25))       # ケーキの種類
> Rep <- factor(rep(1:25, each=4)) # 被検者
> ## パラメトリック検定
> # 対応のないデータとして検定
> summary(aov(x~Tr))
            Df Sum Sq Mean Sq F value Pr(>F)  
Tr           3  33.95   11.32   2.928 0.0376 *   F値の自由度は(3, 96) です
Residuals   96 371.04    3.86                 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
> # 対応のあるデータとして検定
> summary(aov(x~Tr+Rep))
            Df  Sum Sq Mean Sq F value  Pr(>F)  
Tr           3  33.950  11.317  2.6864 0.05283 .   F値の自由度は(3, 72) です
Rep         24  67.740   2.823  0.6700 0.86375  
Residuals   72 303.300   4.212                  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
> ## ノンパラメトリック検定
> # 対応のないデータとして検定
> kruskal.test(x~Tr)

	Kruskal-Wallis rank sum test

data:  x by Tr 
Kruskal-Wallis chi-squared = 8.4743, df = 3, p-value = 0.03716

> # 対応のあるデータとして検定
> friedman.test(x, Tr, Rep)

	Friedman rank sum test

data:  x, Tr and Rep 
Friedman chi-squared = 6.304, df = 3, p-value = 0.09772

No.07844　Re: ANOVAについて　　【くじら】　2008/10/07(Tue) 05:22

お返事とご助言，どうもありがとうございました。
説得材料を集めるのに時間がかかり，お礼が遅くなりましたこと，お詫び申し上げます。
(海外の大学院のため，自分の知識を固めてからでないと，第二外国語で相手を説得できません。)

まず研究グループの仲間に「対応あり・なし」の説明をしたところ納得が得られ，他のグループと一部教員の助言とは異なるけれども私の班は，正しいと思える統計で処理を進めて最終研究報告書を出すことで一致しました。

今後，審査がありますが，再度，今度は教員を説得したいと思います。
ご教授，どうもありがとうございました。
間違った方法でせっかくのデータを台無しにすることのないよう，今後とも勉強していきたいと思います。どうもありがとうございました。