No.14870 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 00:20

ある商品に懸賞応募ハガキを同梱して,応募ハガキにはアンケートを数問記載し回答結果が応募者の全数調査になるような時,掲載したい質問数に対してハガキのスペースの足りないので解決策として下記のような手を考えたのですが,これは統計上問題ないでしょうか?

・ハガキを3種類用意し,それぞれ以下のような質問を掲載する
 1.年齢 2.性別 3.質問A 4.質問B 5.質問C
 1.年齢 2.性別 3.質問D 4.質問E 5.質問F
 1.年齢 2.性別 3.質問G 4.質問H 5.質問I
・パッケージング段階で商品に3種類のハガキのうち1枚が無作為に同梱され,出荷先などで偏らないようにする
・それぞれのハガキで応募した人は応募者全体の1/3の無作為抽出標本と考えて質問A〜Iまでを母集団推定する

性別と年齢だけは全数データが出揃って,質問A〜Iは標本データになるので,たとえばハガキパターン1の男女比が全体の男女比とズレていれば,質問A〜Cの結果はウェイトをかけて全体の男女比に合わせてから母集団推定をするべきでしょうか?

No.14875 Re: 一部が全数で一部が標本  【kai】 2011/06/28(Tue) 08:59

アンケートの結果をどのように利用するかによると思います.
単純に各質問について集計&母集団の推定をするならこれでも問題ないと思いますが,3種類のはがき間では対応関係が無くなるので,例えば質問Aと質問Dの回答の相関などはみれなくなります.

No.14877 Re: 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 09:58

そうですね,ありがとうございます。
相関どころかクロス集計すら出来なくなるので,どの質問とどの質問をセットで掲載するかは用途によって慎重に考えるつもりです。

ザッ クリした例ですが,仮に応募者全体で男3000:女3000と明確に判っていて,パターン1のハガキで応募したのが男1200:女800だったとしたら, 母集団を推定する時は質問A〜Cは女1.25と男0.83のウェイト値をかけてから母比率の推定をすべきでしょうか?

No.14878 Re: 一部が全数で一部が標本  【青木繁伸】 2011/06/28(Tue) 11:35

「女1.25と男0.83のウェイト値をかけてから母比率の推定」とはどのような計算をするのでしょうか?

男 1200 人中 a 人,女 800 人中 b 人が「はい」と答えたとしましょう。「はい」と答えた割合を Pa=a/1200,Pb=b/800 としましょう。
男女 3000 人中では,それぞれ 3000×Pa 人,3000×Pb 人が「はい」と答えると期待されますよね。全体での「はい」と答えたものの割合は,
(3000×Pa+3000×Pb) / (3000+3000) = 0.5×Pa + 0.5×Pb ですよね。重みは男女とも同じ 0.5 では?

No.14879 Re: 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 12:18

母集団の男女構成比と標本の男女構成比のズレをウェイトバック集計で補正した結果で推定するのかな,と思ったのですが,全然的外れでしたか。
例えば全体の男女が3000人ずつで,ハガキ1の回答が以下だったら
(年代構成比は完全に一致したとする)

  総数 はい いいえ
男 1200 700  500   男: 2000名×50%÷1200名=0.83
女 800  400  400   女: 2000名×50%÷800名=1.25

補正前 はい 1100/2000 55%
補正後 はい (700*0.83 + 400*1.25) / 2000 54%

6000名中の「はい」を推定するために後者を使うのかな,と。

でもウェイトバックと検定で検索してみるとhttp://www.jil.go.jp/institute/discussion/documents/dps_05_001.pdf
とか出てくるので,なんか全くダメなことをしている気がしてきました。

No.14880 Re: 一部が全数で一部が標本  【青木繁伸】 2011/06/28(Tue) 13:12

あげられた例で,標本中の「はい」の割合は,それぞれ 700/1200, 400/800 先ほどの説明により,男女3000人ずつの母集団における割合の推定値は 0.5×(700/1200+400/800)=0.5416667 で,(700*0.83 + 400*1.25) / 2000=(700*2000*0.5/1200+400*2000*0.5/800)/2000=(700*0.5/1200+400*0.5/800)=0.5*(700/1200+400/800)=0.5416667 と,同じになりますが。

No.14881 Re: 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 15:05

同じですね…私自信が自分で何をしようとしているのかを取り違えている気がしています,すみません。
数字を変えて

もし
  総数 はい いいえ
男  1200 1100  100
女  800  100  700
全体 2000 1200 800
0.5×(1100/1200+100/800)=0.52083が全体で「はい」と答えると期待される。

しかし性別を聞く質問をそもそもしていなくて全体1200/2000,はい=60%しかわからなくて標本から母集団を推定する時,95%信頼区間で0.6±1.96*(SQRT(0.6*(1-0.6)/2000))で57.8〜62.1%になるんでしょうか。

No.14882 Re: 一部が全数で一部が標本  【青木繁伸】 2011/06/28(Tue) 15:36

> もし性別を聞く質問をそもそもしていなくて全体1200/2000,はい=60%しかわからなくて標本から母集団を推定する時,95%信頼区間で0.6±1.96*(SQRT(0.6*(1-0.6)/2000))で57.8〜62.1%になるんでしょうか。

ならないでしょう。というか,計算で出てくる数値が信頼できるものかどうかわからないでしょう。

> ある商品に懸賞応募ハガキを同梱して,応募ハガキにはアンケートを数問記載し回答結果が応募者の全数調査になるような時

そ もそも,このように「回答者に利益はあっても不利益はない」というような状況であっても,100%の回答率は期待できないものです。商品に好意的でない人 (不満を持った人)は応募しない人が多いかも知れませんからね。100%でなければ,応募した人としない人で真の回答が異なるなら,得られる回答結果には バイアスが含まれますよね。

回答率は低くても,バイアスの少ないデータが得られるように,また,不必要な調査上の制約を持ち込まないように,調査手法を考え直す方がよいでしょう。例えば,調査費用は1.6倍になってもハガキではなく封書を用いるとか。

No.14883 Re: 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 15:57

あ,いえ母集団は応募した人で構わないんです。今回知りたいのは応募してくれ人についてで,応募してくれなかった人は考慮外で,応募=ハガキを送る,です。
封書にして全数調査にしてしまうのが一番シンプルでいいんですが,商品のサイズや応募の手軽さなど諸々の事情からハガキを使用するのですが,限られたスペースで質問数を確保する手はないかと思い上記のような手を考えてみました。

な ので,年齢・性別については全ハガキに質問が載るので全数調査,質問部分は(1/ハガキのパターン数)のサンプルでの標本調査になるので,せっかく母集団 の性年代構成比が全数で明らかなのにそのまま標本データである質問部分を区間推定していいのかどうか,というのがお聞きしたかった所なんです。

ハ ガキ1〜3の総計(つまり母集団)の男女構成比と,ハガキ1の男女構成比にズレがあったら,さらに男女で回答傾向が大幅に違ったとしたら,ハガキ1の男女 別でない全体の回答比率そのままで母比率の区間推定を行ってよいのかどうか。ハガキの封入さえ無作為性が確保されていれば,ハガキごとの男女比のズレはサ ンプル誤差なので普通に区間推定してしまって良いのでしょうか。

それと,層別に見ないで全体から母集団全体を区間推定するのと,男女構成ごとの回答から算出した期待される比率はどちらのほうを重視すべきでしょうか。

※そもそも無作為にハガキが消費者の手元に届けばそんなにズレないとは思うのですが。

No.14884 Re: 一部が全数で一部が標本  【こじま】 2011/06/28(Tue) 21:30

そのまま区間推定の計算していいんじゃないでしょうか。

これがダメだったら,社会調査で層化二段無作為抽出した標本の有効回答者の構成比が日本の人口構成比に一致してなかったら単純集計から母集団推定できないってことになっちゃう。

つい先日青木先生にお聞きしたことと繋がるかと思って書き込んだんですが,これこそ有限母集団修正項を掛けて

p±1.96*(SQRT(p(1-p)/n*N-n/N-1))

ってやらないといけない事例でしょうか?

No.14885 Re: 一部が全数で一部が標本  【青木繁伸】 2011/06/28(Tue) 22:08

> そのまま区間推定の計算していいんじゃないでしょうか。

もう止めようと思ったのですが。
性 別を無視して推定できるのは,性別で回答率に差がないときです。どのような要因についても同じ。その要因を無視して集計できるのは,その要因を無視できる ときに限ります。その要因を無視できるのは,その要因によって結果に差がないときだけです。その要因によって結果が変わるなら,その要因を無視することは できません。当たり前のことです。
今回の場合でも,回答者の男女の比率と男女で「はい」と答えたものの割合によって,推定値は大きく変化します。男女の比率が分からないとしたらその大きく変化する値のどれであるかがわからないのですから,推定値の精度に疑義が生じるのは当然のことでしょう。

> p±1.96*(SQRT(p(1-p)/n*N-n/N-1))

今回のことと無関係で,また,過去の発言の数式は私が修正しておりますが,数式の正しい表記はp±1.96*(SQRT(p(1-p)/n*(N-n)/(N-1))) であることにご注意下さい。あなたの数式通りに計算すると,正しい結果が得られません。

No.14888 Re: 一部が全数で一部が標本  【toriumi】 2011/06/28(Tue) 23:18

なんだか質問のレベルが低すぎて取り合う気を削いでしまったようで申し訳なくなります。求めたいことのために何をやるべきかが理解できてないようでした。

  総数 はい いいえ
男  1200 1100  100
女  800  100  700
全体 2000 1200 800

商品を購入してくれた人が何人かわからないけど,応募してくれた人は6000人
6000人が買った商品には3パターンのハガキのうち1つが無作為についている
2000人のハガキに載っている質問Aの「はい」の比率から6000人の比率の区間推定をするには何をしたら良かったのでしょう。

No.14891 Re: 一部が全数で一部が標本  【こじま】 2011/06/29(Wed) 11:56

>性別を無視して推定できるのは,性別で回答率に差がないときです。どのような要因についても同じ。その要因を無視して集計できるのは,その要因を無視できるときに限ります。

回答率というのは標本からの回収率のことではなく回答の比率のことですよね?
例えば母比率の信頼区間のページにある
「内閣の支持率を 500 人の有権者に調査したところ 35% であった。支持率の 95% 信頼区間を求めなさい。」
これも,500人の有権者のうち男女で支持率が違っていたら,あるいは年齢で支持率が違っていたら,無作為抽出でも要因を無視できないので区間推定はできない(精度が低い)ということなのでしょうか。

No.14892 Re: 一部が全数で一部が標本  【通りすがり】 2011/06/29(Wed) 19:21

当然精度は著しく落ちるでしょう。
極端な話,50歳未満は絶対に支持率100%,50歳以上は絶対に支持率0%だったらどうしますか。

日 本の人口15歳以上の人口は15〜49歳が50%,50歳以上が50%です(概算)。例題では500人の有権者がどっから抽ってきた人か書いてないけど, 15〜49歳の人が275人,55%だったら,500人の支持率は55%になりました。サンプリング誤差とは別に誤差が5%も発生します。

No.14893 Re: 一部が全数で一部が標本  【こじま】 2011/06/29(Wed) 22:04

標本を無作為に抽出する際にサンプル誤差によって年齢層が偏った。その偏った年齢層の影響を受けて全体の支持率が変わった。それはもうサンプル誤差とは別物として考えないといけない,ということですか?

500 人抽出してそのうち55%が15〜49歳だったのなら,母集団での割合は95%信頼区間で±4.3%。実際には母集団では50%だと言うなら,無作為抽出 でそんなに偏る確率が5%以下。年齢っていうのは他の要因に影響を受ける変数ではないので,こういう考え方なら問題ないんでしょうか。逆に他の要因で比率 が変わるのが明白な「支持率」とか「意識」とかは単純に推定してはいけないということ?

青木先生の仰るように計算して(総人口12千万として)
(6千万×1+6千万×0) / (6千万+6千万) = 0.5×1 + 0.5×0
50%が支持すると期待できる。この50%っていうのは点推定というもの?
区間推定は出来ないんですか。

No.14907 Re: 一部が全数で一部が標本  【のね】 2011/07/01(Fri) 23:43

サンプリング誤差とはちょっと別で,サンプルの男女の構成比が母集団の構成比と異なることがわかったならば,その補正を行うべきだろうと言うことでしょう。母集団の構成比という情報を無視することはもったいないことだと思いませんか。

多次元分布を考えれば区間推定もできますが,簡単な数式で表せるかどうかは知りません。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る