★ サンプル数について,教えて下さい。 ★

1095. サンプル数について,教えて下さい。 むげん 2003/11/20 (木) 14:42
└1096. Re: サンプル数について,教えて下さい。 青木繁伸 2003/11/20 (木) 14:58
 └1097. レス,ありがとうございます。I むげん 2003/11/20 (木) 17:10
  └1098. Re: レス,ありがとうございます。I 青木繁伸 2003/11/20 (木) 18:18
   └1099. Re^2: レス,ありがとうございます。I むげん 2003/11/20 (木) 19:11
    └1100. 区切り位置 TAI 2003/11/20 (木) 19:42
     └1102. Re: 区切り位置 青木繁伸 2003/11/20 (木) 21:19
      └1103. Re^2: 区切り位置(入力外注費) FYI 2003/11/20 (木) 22:30
       └1104. Re^3: 区切り位置(入力外注費) 青木繁伸 2003/11/20 (木) 22:47


1095. サンプル数について,教えて下さい。 むげん  2003/11/20 (木) 14:42
 初めまして,むげんと言う者ですm(_ _)m。高卒です。
 今,あるデータを整理してまして,そのデータから平均値などを求めようとしているのですが,データ数が多すぎて困っています。データ数は約3500個。
  そこで,統計学には「サンプル(標本)」と言う概念がある,と言う事を思い出しまして,自分なりに統計学を勉強していたのですが,どうも高卒のレベルでは限界があるようで・・・(^^;。頑張ればどうにかなるのでしょうが,これでは統計学を理解する事が目的となってしまい,データから平均値を求めると言う,もともとの目的がおろそかになってしまいます(^^;。
 厚かましいと思ったのですが,皆さんのお知恵を少しばかりお借りしたいです。どうか,よろしくお願い致しますm(_ _)m。

 データ数(母集体) 約3500個。データ数(母集体)からx(サンプル)を取りだし平均値を求める。x(サンプル)からの信頼度95%〜98%。
 この時,「x(サンプル)」として「データ数(母集体)」から,いくつぐらいのデータ(x(サンプル))を取れば良いのでしょう??

 厚かましいお願いで大変申し訳ないですが,どうかどうか,お答えよろしくお願い致しますm(_ _)m。

     [このページのトップへ]


1096. Re: サンプル数について,教えて下さい。 青木繁伸  2003/11/20 (木) 14:58
>  データ数(母集体) 約3500個。データ数(母集体)からx(サンプル)を取りだし平均値を求める。x(サンプル)からの信頼度95%〜98%。
>  この時,「x(サンプル)」として「データ数(母集体)」から,いくつぐらいのデータ(x(サンプル))を取れば良いのでしょう??

そのためにはいくつか情報が必要です。
母分散はどれくらいだと推定できますか。
母平均の推定精度はいくつくらいですか(これは%で示すのではなく実測値の単位で示す)
これがわかれば,
http://aoki2.si.gunma-u.ac.jp/lecture/SampleSize/muconf.html
で,必要なデータの個数を計算することができます。

しかし,それは面倒だろうし,得られる結果もある範囲にあるらしいことがある確率の下で得られるだけです。

それよりは3500個のデータの平均値を素直に求める方がよろしいのではないでしょうか。

それとも,3500のデータはコンピュータに入力されていないとか,まだ測定されていないとか?の事情があるのでしょうか。
コンピュータに入力されていれば,平均値であろうと何であろうと求めるのはすごく簡単ですよね???

     [このページのトップへ]


1097. レス,ありがとうございます。I むげん  2003/11/20 (木) 17:10
 青木様,レスありがとうございますm(_ _)m。

 今の僕にはかなり難解ですが,頑張ってみます。

> 母分散はどれくらいだと推定できますか。

 「母分散」の意味が良くわかりません(T_T)。「母集体の平均値のプラスマイナス幅」と受け取りましたが,これで良いでしょうか??
 そうだとすると,98%(プラスマイナス1%)ぐらいだと思われます。

> 母平均の推定精度はいくつくらいですか(これは%で示すのではなく実測値の単位で示す)

 母平均の推定精度は(上と同じなのかな??),98%(+−1%)ぐらいだと思われます。

> これがわかれば,
> http://aoki2.si.gunma-u.ac.jp/lecture/SampleSize/muconf.html
> で,必要なデータの個数を計算することができます。
 
 すみません。難解です(T_T)。

> しかし,それは面倒だろうし,得られる結果もある範囲にあるらしいことがある確率の下で得られるだけです。

 実は,これで良いんです。母集体に対し,95%〜99%以内の結果が出れば御の字ですm(_ _)m。

> それよりは3500個のデータの平均値を素直に求める方がよろしいのではないでしょうか。

 その通りですm(_ _)m。ですが,実はデータ自体がややこしいことになっていまして・・・(T_T)。データひとつに対し,
 「1月 東京支店 売上5000円 純利益3500円 雑費200円」
とこんな感じになっているのです。

> それとも,3500のデータはコンピュータに入力されていないとか,まだ測定されていないとか?の事情があるのでしょうか。

 そうです(^^;。データ自体は,ただの文字の羅列になっています。

> コンピュータに入力されていれば,平均値であろうと何であろうと求めるのはすごく簡単ですよね???

 もう,本当にその通りです。その文字の羅列状態になっているデータを,Excelに叩き起こしているところです。それで,全部入力するのは不毛のように思えて来ましたので,なんとかデータ入力数を減らせないものかと考えたのですが・・・(T_T)。

 動機は不純かもしれませんが(^^;,どうにかデータ入力数を減らせないものでしょうか??

 どうか,よろしくお願い致しますm(_ _)m。

     [このページのトップへ]


1098. Re: レス,ありがとうございます。I 青木繁伸  2003/11/20 (木) 18:18
本来はデータ数を決める方向から攻めるべきですが,いろいろ説明も面倒なので,以下のような提案をします。

エクセルを使うことにします。
A1 から A3 に,1,2,3 という三つの数値を仮に入力します。
B1 から B7 に,以下のように入力します。
95
=COUNT(A:A)
=AVERAGE(A:A)
=VAR(A:A)
=TINV(1-B1/100,B2-1)
=B3-B5*SQRT(B4/B2)
=B3+B5*SQRT(B4/B2)
実際には,各セルの入力でリターンキーを押すと以下の数値が表示されるでしょう。
B1: 95       確からしさを表す%
B2: 3       データの個数
B3: 2       平均値
B4: 1       (不偏分散)
B5: 4.302655725  (t 値)
B6: -0.484139441  95%信頼限界の下限値
B7: 4.484139441  95%信頼限界の下限値
数値が違う場合には,入力ミスがあると思いますのでよくチェック。
B1 には,95 とか,98 とか % の値を入れます。
この解釈は,同じだけの個数を取り出して平均を計算するということを何回も繰り返すと,B6 と B7 に出力される数値の間に母平均が含まれるのが,そのうちの B1 に書いた%であるということです(わかりにくい表現ですが,その通りです)。

確認が終わったら,実際のデータをA1 から順番にいくつか入れていってみてください。
入れるデータは,なるべく無作為に(あなたの例だと,最初に東京支店のデータばっかりとか,冬の季節のデータばっかりだとかにならないようにということです。要するに,もとの3500のデータを代表できるものということです)。
B6,B7 に出力される限界値を見ながら,必要と思うだけデータを入れてみてください。

B6,B7 の限界値の幅(信頼区間といいます)が,あなたの望むレベルに達したら,それ以上データを入力する必要はないということになります。

以上の手続きは,
http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean2.html
の,母分散が未知の場合に説明してあることなので,説明も読んでいただくといいとは思います。

     [このページのトップへ]


1099. Re^2: レス,ありがとうございます。I むげん  2003/11/20 (木) 19:11
 青木様,レスありがとうございましたm(_ _)m。

 青木様のおっしゃる通りのやり方で試してみます(かなり,自分的に不安ですが(^^;。)。

 本当にありがとうございましたm(_ _)m。また,機会がありましたら,ご教授お願い致します。

     [このページのトップへ]


1100. 区切り位置 TAI  2003/11/20 (木) 19:42
>「1月 東京支店 売上5000円 純利益3500円 雑費200円」
 エクセルは,区切り位置を指定すると,一つのセルの内容をいくつかのセルに分割することができます。データメニューからその選択できるはずです。

     [このページのトップへ]


1102. Re: 区切り位置 青木繁伸  2003/11/20 (木) 21:19
> >「1月 東京支店 売上5000円 純利益3500円 雑費200円」
>  エクセルは,区切り位置を指定すると,一つのセルの内容をいくつかのセルに分割することができます。データメニューからその選択できるはずです。

そもそも,その文章(データ)がコンピュータに入っているかどうかわからないと言うように読んだのですが。
また,エクセルは半角の区切り記号で区切られているか,固定位置で区切るかしかできないので,自由文脈で書かれていると,プログラムなんかを書く必要があるかも。
例 に示されたものならば,全角空白で区切られているようなのですが,エクセルは区切り記号に全角記号が指定できないので,前もってエディタなどで全角空白を半角空白にでも置き換えておきましょう。また,「売り上げ」,「純利益」,「雑費」,「円」なんかはじゃまなので消去するか半角空白で置き換えておきましょう。
また,数値が全角で入力されているので,場合によっては事前に半角数字に置換しておかねばならないかも。今確かめてみたら,区切られた後の文字列が数字のみからなるときには,ちゃんと数値に変換されますが,「1200円」などのように余分な全角文字が入っているとそのままの文字列になり数値として利用できなくなります。

ま,そんなことあれこれを考えると,一寸簡単なデータ抽出プログラムでも書いた方がましなような気が(何でもエクセルでやるなんてのは気が重い)。

# 入力するにしても,3600個のデータ今の場合は売り上げ,純利益,雑費の3項目になるかもしれず,更に月や支店別もデータとすれば,入力すべきデータは多くなるかもしれませんが,外注でもすれば案外安くできるのでは?
# ワンタッチ2,30銭くらいかな?全ての項目を入力するとすると,1行(1件)あたり15タッチ,3500行(件)だと1万円から2万円くらいでできるのでは??(かかりすぎ?)
# バイトさんを頼むと,時間がかかるし,信頼性が落ちるから。(自分でやるという手もあるが,単純作業は嫌ですよね)

     [このページのトップへ]


1103. Re^2: 区切り位置(入力外注費) FYI  2003/11/20 (木) 22:30
> # 入力するにしても,3600個のデータ今の場合は売り上げ,純利益,雑費の3項目になるかもしれず,更に月や支店別もデータとすれば,入力すべきデータは多くなるかもしれませんが,外注でもすれば案外安くできるのでは?
> # ワンタッチ2,30銭くらいかな?全ての項目を入力するとすると,1行(1件)あたり15タッチ,3500行(件)だと1万円から2万円くらいでできるのでは??(かかりすぎ?)

あまり具体的な額を見聞きすることも少ないのかなと思い,以下,ご参考まで.

打ちやすさや入力者の熟練度でも違う場合はありますが,ウチでは,標準的には,タッチ単価,0.3〜0.4円です.(通常はアンケートデータの個票からのデータ入力ですが)

ただし,2度打ち(同じデータをゼロから2度,別々に打つ)して,ベリファイ(その2つのデータを照合,不一致部分は個票に戻り確認),その後,レンジチェックなどの簡単なデータチェックをしますので,単純なタッチ数より余計に費用がかかります.

タッチ単価0.3円で,1レコード15タッチ(改行込み),3500レコードで,
15タッチ×3500レコード×2度打ち=105000タッチ
105000タッチ×0.3円=31500円

ベリファイなどの最低限のチェック費用が入力費の10%なので,
31500円×0.1=3150円

あわせて,
31500+3150=34650円

クライアントとの個票の配送料や,諸連絡,打合せ費用他あるので,基本料も加算します.このケースだと,7000円です.なので,

基本料+入力実費
7000+34650円=41650円

ということで,ウチだと,41,650円くらいかなと思われます.

#ウチは,特に安いほうではないと思いますが....
#営業目的と思われてもイヤなので,一度限りのハンドルとさせてください.

     [このページのトップへ]


1104. Re^3: 区切り位置(入力外注費) 青木繁伸  2003/11/20 (木) 22:47
タッチ単価は,だいたいそれくらいですね(20年くらい前と比べてもあんまり変わっていないのかな)。

今回のような目的なら,ダブルチェックもレンジチェックも不要でしょうね。レンジチェックくらいならエクセルでできるし,レンジチェックで引っかかったデータは確認して入力し直さず捨ててもいいし。

上司に説明して,合い見積もり取って,なんて面倒くさいことやるくらいなら,自分でしこしこ入力するかな(^_^)

ワンタッチ0.5秒(多く見積もって)として,
15*3500*0.5=26250sec=7.3hr
時給800円(安い?)で5840円。
これなら,二人にやらせてダブルチェックしてもいいかな。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 026 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る