No.14801 t検定どちらを使えばよいか  【岡田】 2011/06/23(Thu) 10:06

t検定を使いたいのですが,下記の用途の場合,対応のある検定かない検定かどちらに適合するのか判断できません。よろしければご教授お願い致します。

ある店舗で若年層客の増加を目的とした特別キャンペーンを実施
通常キャンペーン期間に来店した客の平均年齢 X1
特別キャンペーン期間に来店した客の平均年齢 X2

この場合特別期間の来客者の中には,通常時も来店している層と,特別期間の効果で来店した層と,両方が含まれていると思われます。

この場合2集団は対応があると考えるべきなのか,ないと考えるべきなのか,どちらにすれば良いのでしょうか?

ちなみに,この2集団で男女比に差があったかどうかも検定したい場合は,独立性の検定で問題ないでしょうか。

No.14805 Re: t検定どちらを使えばよいか  【青木繁伸】 2011/06/23(Thu) 11:40

そもそも統計学の前提として,「各データは独立である」という条件が満たされていないので,独立だとか対応があるだとかすら言えません。検定も行えないでしょう。

> の場合特別期間の来客者の中には,通常時も来店している層と,特別期間の効果で来店した層と,両方が含まれていると思われます。

それ以上に,それぞれの期間中に複数回来店した客のデータも含まれているのでしょうから問題外でしょう。

確かなことを言うためには,ちゃんとしたデータ採取計画を立てることが必要だったのでしょう。データを取ってしまった後ではどうしようもない。
通常期間においては,たとえば,初回来店時のデータ(常連客も初めての客もいるだろう)だけを集める(二回目以降のデータは取らない。取っても,使わない)。
特別期間においては,新規来店者(初めて来店したもの)のみのデータを使う(通常期間に来た客も,それ以前に一度でも来店した客のデータは取らない。取っても,使わない)。
そうすれば,各データは独立になり,「対応があるデータだろうか?」なんて心配する必要もない。

No.14806 Re: t検定どちらを使えばよいか  【岡田】 2011/06/23(Thu) 12:20

前提となるデータ取得の時点で問題がある,ということですね。

>それぞれの期間中に複数回来店した客のデータも含まれているのでしょうから問題外でしょう。

という部分については「期間中の来店者という母集団から,重複することなく無作為に標本を抽出」という条件を満たさなければならないということですよね。

>「各データは独立である」という条件が満たされていない

これについてよく判らなかったのですが,もし特別キャンペーン期間に通常キャンペーン期間より若年層客を得られたかどうかを全数調査せずに統計的に知りたい場合,データ取得の段階で現実的ではありませんが考え方として

・通常時の来店者の無作為抽出標本の平均年齢
・通常時は来店していないけど,特別時にだけ来店した人の無作為抽出標本の平均年齢

というデータでなければならないという理解で良いのでしょうか。
特別時の来店者と通常時の来店者という2つの母集団が独立していない,両方に含まれる部分も片方に含まれる部分もあるので検定を行えない,ということでしょうか?

No.14807 Re: t検定どちらを使えばよいか  【青木繁伸】 2011/06/23(Thu) 12:36

>> それぞれの期間中に複数回来店した客のデータも含まれているのでしょうから問題外でしょう。

> という部分については「期間中の来店者という母集団から,重複することなく無作為に標本を抽出」という条件を満たさなければならないということですよね。

そういうことです。

>> 「各データは独立である」という条件が満たされていない

> これについてよく判らなかったのですが,もし特別キャンペーン期間に通常キャンペーン期間より若年層客を得られたかどうかを全数調査せずに統計的に知りたい場合,

別に,期間内に来店したすべての客を調査する必要はありません。そのなかから無作為に選べばよいだけ。

> データ取得の段階で現実的ではありませんが考え方として

> ・通常時の来店者の無作為抽出標本の平均年齢
> ・通常時は来店していないけど,特別時にだけ来店した人の無作為抽出標本の平均年齢

> というデータでなければならないという理解で良いのでしょうか。

そういうことです。無作為抽出の対象をキチンと定義しないとだめですよということ。

> 特別時の来店者と通常時の来店者という2つの母集団が独立していない,両方に含まれる部分も片方に含まれる部分もあるので検定を行えない,ということでしょうか?

統計データは,独立でなければならない。わかりやすく言えば,重複データを含んではいけないのです。

No.14810 Re: t検定どちらを使えばよいか  【岡田】 2011/06/23(Thu) 13:33

詳細に教えて頂き本当にありがとうございます。
実は特別期間は後日に控えているので,間違ったデータ取得をしないよう重々気をつけたいと思います。

そして重ねて申し訳ありません,最後にもう一つだけお願いします。
同じ状況で以下のようなデータ取得をした場合はどうでしょうか。

特別期間内に来店した客から無作為抽出した標本に対してアンケートを行い,普段来店しているかどうかを尋ねた結果

標本数N 1010
有効回答者 1000
普段来店していると回答(A) 700人 平均年齢 a歳
特別期間に新規来店と回答(B) 300人  平均年齢 b歳
無回答 10

この場合母集団は同じ特別期間内の来店者ですが,AとBは独立したグループとして対応のないt検定によって平均の差を検定して良いように思えるのですがいかがでしょうか。
ただこの場合あくまで母集団は特別期間内の来店者でその内の2グループの差であって,Aの平均年齢a歳と,本当に普段来店している人の平均年齢が同じとは言えない点で,若年層の来店が増えたかどうか厳密には言えないと思いますが。

No.14812 Re: t検定どちらを使えばよいか  【青木繁伸】 2011/06/23(Thu) 16:12

最初の案のように,通常期間と特別期間で比べようとしたとき,両者が時間的に離れていれば,季節や景気の影響を受けることも考えられ,平均年齢が違ったとしても,キャンペーンの効果なのかそれ以外の影響なのか区別が付けられないと言うことがあるでしょう。
それに対して新たに提案された特別期間中の初回来店者(常連さん初回,全く新規の客)で年齢を比較するというのは,よい計画だと思います。

> ただこの場合あくまで母集団は特別期間内の来店者でその内の2グループの差であって,Aの平均年齢a歳と,本当に普段来店している人の平均年齢が同じとは言えない

というのも,常連さんが「混み合うので特別キャンペーン中は控えよう」などと考える人が多ければということですが,そのようなことが本当にあるかどうかはわかりませんよね。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る