「統計学関連なんでもあり」の過去ログ--- 042

No.07465　よろしくお願いします。　　【統計の初心者です。】　2008/08/25(Mon) 08:57

2つの実験群での比較について検討しているのですが，内容が各々の群の被験者の比率の差を検討しようと考えています。
つまり，実験で
A群の被験者各々の比率が，20％，30％，35％…
B群の被験者各々の比率が，15％，25％，30％…
となった2群間の比率の差の検定を行いたいのですが，被験者数が異なり対応もありません。
パーセンテージの数字を使って正規性の検定を行い，正規性が認められなかったので，マンホイットニーのU検定にて差を検討したのですが，この検定方法でよろしいでしょうか。
パーセンテージの数字を比率尺度として用いてよいかと言うことになるかと思うのですが，他の方法を用いるべきでしょうか。
大変，初心者の質問で申し訳ないのですが，何卒ご教授いただければと思います。
よろしくお願い致します。

No.07467　Re: よろしくお願いします。　　【青木繁伸】　2008/08/25(Mon) 09:19

「被験者各々の比率」というのがよくわかりませんね
いずれにせよ，「パーセンテージの数字を使って」検定するのは不適切だと思います
データをもう少し説明するべきでしょう

No.07468　Re: よろしくお願いします。　　【統計の初心者です。】　2008/08/25(Mon) 16:42

早速のご返答ありがとうございます。
またデータの説明が悪く申し訳ございません。

データの形式としては
学生と教員の2グループに感想文を書かせました。
その文章中の形容詞の頻度の多い少ないを学生と教員間で検討したいと考えています。
このため，被験者ごとに単語の数が異なるので，各被験者の値をパーセンテージの値にして比較を行いました。
データとしては，各被験者における形容詞の数／総単語数で考えました。
例えば
　学生群：学生1：35語／100語　→　35％
　　　　　学生2：40語／200語　→　20％
　　　　　学生3：50語／150語　→　33％…

　職員群：職員1：20語／200語　→　10％
　　　　　職員2：45語／150語　→　30％
　　　　　職員3：45語／300語　→　15％…

というデータ形式です。
先生のおっしゃるようにこのパーセンテージの値を比率尺度として用いるのは不適切と考えますと，どのような統計処理を行えばよいでしょうか。
データの説明もまだ悪いのかもしれませんが，ご教授よろしくお願い致します。

No.07473　Re: よろしくお願いします。　　【kai】　2008/08/26(Tue) 12:51

このデータなら二群間の比較になると思いますが，正規分布していないということなので，ノンパラメトリック検定を行うのも一つの考え方ではないでしょうか．

正規分布に従っていないとはいえ，何か特定の分布に従っているようであれば（例えば対数正規分布など），変数変換してパラメトリック検定を行ったほうがいいでしょう．

n数が異なるので，重みを付けた検定（例えば重みを√nとして）をした方がよいような気がします．パラメトリック検定（母平均の差の検定）であれば重み付けは可能ですがノンパラメトリック検定で重み付けを使える手法を私は知りません．

あまり良い回答になっていなくてすみません．

No.07474　Re: よろしくお願いします。　　【統計の初心者です。】　2008/08/26(Tue) 14:41

ご回答ありがとうございます。

ご回答頂いた検定なのですが，使用すべき数値をどの様に扱えばよいのかがわからないのですが，いかがしたらよろしいでしょうか。
各々の被検者の語数が異なることから，被検者間の値を統一すべきと考えパーセンテージの値を用いて指数化したのですが，パーセンテージの値を直接使用するのは不適切とのご指摘がありました。
どの値を用いた2群間の比較を行えばよいでしょうか。
初歩的な質問で誠に申し訳ありませんが，よろしくお願い致します。

No.07476　Re: よろしくお願いします。　　【青木繁伸】　2008/08/26(Tue) 18:34

北大の久保さんのページが参考になるのではないでしょうか？
http://hosho.ees.hokudai.ac.jp/~kubo/ce/EesLecture2007.html
第4回の5の後半？