No.21764 複数データソースから得た情報を統合し、集計する方法について  【レポート調査屋】 2015/09/05(Sat) 23:46

複数データソースから得た情報を統合し,集計する方法について

突然の投稿を失礼致します。

とあるパネル調査によるウェブサイトPV情報のレポーティング業務やっております。

ユーザーのPCにブラウザログ収集用のアドオンを作っており,ユーザーの許諾を得た状態で,URLの閲覧ログデータを取得・分析しております。

今までは,とあるギーク向けのブラウザアドオンを基に1000ユーザーほどのウェブサイトのログ(データソースAとします)を収集しておりました。
そして,その1000件の情報を基に,ウェブサイトの人気ランキング等を算出しておりました。
その際に,年代・性別情報を基にウェイトバック係数はかけております。

ただ,データソースAのユーザー数が減ってきたため,新たに女性や初心者向けのアドオンを用いて同様なログの収集を開始しました(データソースBとします)。

調査として,ユーザー数を1000以上保持するために,データソースA(500)とデータソースB(500)を合わせてウェブサイトのランキングの算出を試みています。
しかし,
・データソースA のみ
・データソースA + データソースB
で各ウェブサイトのPV数を算出する場合には,ウェブサイトによって,どうしても数値が変わってしまいます。(ある程度であれば許容できるのですが,明らかな違いが出ているものがあります。)
年代・性別の偏りはウェイトバック係数で補正しているのですが,それ以外の潜在的な要素がデータソースで異なるため,数値に違いが出てしまっております。

このように,異なる母集団から得た情報を合わせて集計をする場合は,どのような方式で行うのが正しいのでしょうか?

データフュージョンという言葉だけは,調べる中で何度か見ているのですが,よく理解できておりません。

わかりにくい文章で恐縮ではございますが,何かアドバイスを頂けますと幸いです。

よろしくお願い致します。

No.21765 Re: 複数データソースから得た情報を統合し,集計する方法について  【青木繁伸】 2015/09/06(Sun) 10:00

1000あるいは500+500というサンプルサイズではやむを得ない誤差でしょう
世論調査でもその程度だろうと仰るかもしれませんが,世論調査は「内閣の支持・不支持」とか「政党支持」とか選択肢が少ないが「ウェブサイトの人気ランキング」では,回答がばらつく。関東の視聴率調査世帯数は600と言われており,視聴率はあまり疑われていないけど,実体は不安定な物でしょう。

No.21766 Re: 複数データソースから得た情報を統合し,集計する方法について  【レポート調査屋】 2015/09/06(Sun) 12:14

早速のご返信ありがとうございます。

おっしゃる通り,視聴率調査もサンプル数が少ない中でやられていますよね。
私自身も疑問を持ちながら数値を見ております。

ちなみに,今の調査では,ユーザーの拡大も考えており,現状では1,000規模ですが,将来的には
20,000程度まで増やしていきたいと思っています。

そうすると,
20,000
10,000 + 10,000
10,000 + 5,000 + 5,000 (データソースCが増えた場合)
などといった形になるのですが,その場合も誤差で仕方ないという形になりますでしょうか?

また,今回はランキングという順位と,想定PV数という拡大推計をした数値までレポートに載せる予定でございます。

想定PV数が大幅にズレた場合に,原因がデータソースの特性にある,ということを避けたいと思っております。

ご意見頂けますと幸いです。

● 「統計学関連なんでもあり」の過去ログ--- 047 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る