No.14750 Re: 巨大データからデータを間引いた解析 【青木繁伸】 2011/06/09(Thu) 08:31
> 全データにアクセスできる状況で,ランダムサンプリングするという研究手法は妥当かどうか?
単純に実態を述べるという目的なら,抽出データに基づいて議論しても一向に差し支えはないでしょう。しかし,抽出データに基づくことが大幅なコスト削減にならないなら,全データを使ってやれば良いだけでしょう。
> 今回は0.2%を選びましたが,この数字はどのように決めるか?
抽出率と言うよりは,サンプルサイズを決めるのでしょう。つまり,サンプルサイズによって,母数の推定精度が変わりますので。
なお,普通の標本調査は 2000 〜 3000 とすることが多いでしょう。
> 0.2%のデータで解析して良いという妥当性はどのように示したら良いか?
前述の通り,実態を述べるということが目的なら,得られた推定値の精度が十分であると言うことを示すことができればよいのでしょう。
No.14751 Re: 巨大データからデータを間引いた解析 【のの】 2011/06/09(Thu) 14:36
青木先生
回答ありがとうございます。
解析にかかるコストの事,サンプルサイズを決めるという考え方,とても明快で良くわかりました。ありがとうございます。
● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る