No.16490 サンプルサイズの偏りが激しすぎる場合の対処法  【ABAC】 2012/02/21(Tue) 18:22

サンプルサイズが違いすぎる2群の比較を行うように依頼され,困っております。

手元にあるのは,ある社会調査のデータです。
変数はいくつかありますが,ほとんど4件法で収集されています。

A群とB群の2つのグループの比較をすることになったのですが,A群のnは約100,B群のnは約10000と,両者の間に非常に大きな開きがあります。

等分散性の検定を行い,等分散性が確認できたとして,単純にt検定や分散分析などで比較しても良いものなのでしょうか?

それとも,何らかの手段でサンプルサイズを揃える(B群のnをA群と同等程度まで減らす)方法を模索すべきでしょうか?

お知恵をお貸しいただけましたら幸いです。
よろしくお願い致します。

No.16492 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【青木繁伸】 2012/02/21(Tue) 18:29

この質問も FAQ です。

サンプルサイズの偏りは気にする必要はありません。
合計サンプルサイズが固定される場合には,各群のサンプルサイズを等しく割り当てるときが一番検出力が高いというだけの話です。
社会調査のように事後に各群のサンプルサイズが決まってしまう場合には,なんの手当もできませんし,手当てすべきものでもありません。

それよりも,
> ほとんど4件法で収集されています。
なのに t 検定という方が問題でしょう。

No.16493 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【ABAC】 2012/02/21(Tue) 18:50

早速のお返事ありがとうございます。

>サンプルサイズの偏りは気にする必要はありません。

B群のnが10000という巨大なサイズなのですが,このnの大きさは検出力に影響しますよね?
これだけサンプルサイズが大きいと,単に比較しただけでは微細な違いでも全て有意になってしまうのではないか,との懸念も抱いております。

>> ほとんど4件法で収集されています。
>なのに t 検定という方が問題でしょう。

評定段階が4件法では不足,というご指摘でしょうか。
調査対象者の年齢の幅が広かったため,全年齢層の方々に無理なくご回答いただけるようにとの配慮から,7件法や9件法の採用は見送った経緯があったようです。

t検定や分散分析の適用に問題があるとして,他に何か適用可能な比較法があればご教示いただければと思います。

よろしくお願い致します。

No.16494 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【青木繁伸】 2012/02/21(Tue) 21:14

> これだけサンプルサイズが大きいと,単に比較しただけでは微細な違いでも全て有意になってしまうのではないか,との懸念も抱いております。

それは,サンプルサイズがアンバランスなのとは無関係です。
A,B それぞれが,半数の 10000/2 だって同じでしょう。その点で言えば,データを集めすぎ。普通,統計調査はサンプルサイズは 3000~6000 で十分。それ以上だと,くだらない差でも検出してしまいます。パワーアナリシスを意識している分析者だと大丈夫ですが,分析者がそのような意識を持ってい なくて出された結果を提示されたクライアントは,誤った解釈をするでしょうね。

> 評定段階が4件法では不足,というご指摘でしょうか。

違いますよ。

> 調査対象者の年齢の幅が広かったため,全年齢層の方々に無理なくご回答いただけるようにとの配慮から,7件法や9件法の採用は見送った経緯があったようです。

洗練された対象者でも,7件法9件法は無理でしょう。

> t検定や分散分析の適用に問題があるとして,他に何か適用可能な比較法があればご教示いただければと思います。

マン・ホイットニーの U 検定やクラスカル・ウォリス検定が代替法になるだろうというのは,統計学での共通認識だと思いますけど。

No.16497 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【ABAC】 2012/02/22(Wed) 09:15

ご指摘ありがとうございます。

>その点で言えば,データを集めすぎ。
>普通,統計調査はサンプルサイズは 3000~6000 で十分。
>それ以上だと,くだらない差でも検出してしまいます。

それで困ってしまっている,というのが現状です。データを渡された時に“nが多すぎる…”とは思ったのですがもう後の祭りで,何とか分析するしかなくなってしまいました。

腹 案としては,探索的に構造方程式モデリングを行い,多母集団同時解析によりA群・B群で配置不変が成立することを確認したうえで,両群間のパス係数の大き さを比較することができないか,と考えております。パス係数の値の比較がやはり問題となるようであれば,有意となるか否かにのみ的を絞って解釈することも 考えております。

> t 検定という方が問題
>> 評定段階が4件法では不足,というご指摘でしょうか。
>違いますよ。

4件法では天井効果の発生が懸念される,というご指摘でしょうか。一応,一つの反応カテゴリーに90%以上の回答が集中している項目は分析から除外しております。

マン・ホイットニーやクラスカル・ウォリスのようなノンパラの検定法を用いるとしても,やはりnの大きさが問題になりますよね?

ご意見・ご助言いただければ幸いです。
よろしくお願い致します。

No.16505 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【Kai】 2012/02/23(Thu) 11:13

連続尺度の場合ですが...
データの数が多いときは検定のp値(定性的な観点)ではなく差の区間推定の結果を使用すれば差の大きさ(定量的な観点)で判断が出来ます.

No.16506 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【青木繁伸】 2012/02/23(Thu) 11:17

effect size の観点から見るのもよいでしょう

検定 < 区間推定 < effect size

No.16508 Re: サンプルサイズの偏りが激しすぎる場合の対処法  【ABAC】 2012/02/23(Thu) 14:07

青木先生,Kai様

なるほど。その手がありましたね。
早速,試してみようと思います。

ご助言いただき,誠にありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る