「統計学関連なんでもあり」の過去ログ--- 044

No.14749　巨大データからデータを間引いた解析　　【のの】　2011/06/09(Thu) 03:30

いつもお世話になっております。

データ解析の妥当性についての質問です。
年齢，性別，職業（職業のカテゴリ＋失業中）が記録された，約三千万件の巨大データがあります。この巨大データからランダムに0.2%をサンプリングした約6万件のデータを使って，年齢や性別の違いによる失業率や職種の割合を調べたレポートがあります。

質問は，
1. 全データにアクセスできる状況で，ランダムサンプリングするという研究手法は妥当かどうか？
2. 妥当だとすると，今回は0.2%を選びましたが，この数字はどのように決めるか？
3. また，0.2%のデータで解析して良いという妥当性はどのように示したら良いか？
という3点です。

巨大データを扱っている先生方には，初歩的な質問だと思います。
直接上記に回答して頂かなくても，何か調べるヒントになるキーワードなどをお教えいただけたら有難いです。

No.14750　Re: 巨大データからデータを間引いた解析　　【青木繁伸】　2011/06/09(Thu) 08:31

> 全データにアクセスできる状況で，ランダムサンプリングするという研究手法は妥当かどうか？

単純に実態を述べるという目的なら，抽出データに基づいて議論しても一向に差し支えはないでしょう。しかし，抽出データに基づくことが大幅なコスト削減にならないなら，全データを使ってやれば良いだけでしょう。

> 今回は0.2%を選びましたが，この数字はどのように決めるか？

抽出率と言うよりは，サンプルサイズを決めるのでしょう。つまり，サンプルサイズによって，母数の推定精度が変わりますので。
なお，普通の標本調査は 2000　～ 3000 とすることが多いでしょう。

> 0.2%のデータで解析して良いという妥当性はどのように示したら良いか？

前述の通り，実態を述べるということが目的なら，得られた推定値の精度が十分であると言うことを示すことができればよいのでしょう。

No.14751　Re: 巨大データからデータを間引いた解析　　【のの】　2011/06/09(Thu) 14:36

青木先生
回答ありがとうございます。

解析にかかるコストの事，サンプルサイズを決めるという考え方，とても明快で良くわかりました。ありがとうございます。