No.13497 標本の抽出法  【TAK】 2010/09/26(Sun) 19:05

いつもありがたく拝見しております。
統計は初級者ですが,何卒よろしくお願い申し上げます。

母集団をある計測値から3群に分けて比較したいと思っております。
また,母集団の数は非常に大きいため100例位を抽出して調査をする予定です。
ところが,100例をA〜C群に分けたとすると,A群は5例,C群は60例,のように群間でnが偏ってしまいます。
そこで,母集団全体をA〜C群に分けた後に,それぞれの群から無作為に30例ずつ同数を抽出し,A群30例,B群30例,C群30例として比較する方法は問題ありませんでしょうか?
ご教示のほど何卒宜しくお願い申し上げます。

No.13502 Re: 標本の抽出法  【青木繁伸】 2010/09/27(Mon) 21:00

何らかの母数を推定する場合には,層ごとに抽出比率の異なる層別抽出が優れているのですけど,そうでない場合(一 般的な場合)には,比例抽出(つまり,母集団の比率に応じた抽出)が無難でしょう。つまり,一々母比率に応じた重みを考えて分析しなくてはならなくなりま す。なお,群の比較を行うような場合も,群ごとのサンプルサイズの違いというのは大きな問題にはなりません。

No.13503 Re: 標本の抽出法  【TAK】 2010/09/27(Mon) 23:06

ご回答いただきまして,誠にありがとうございます。
今回は母集団の分析を行うのではなく,単に群の比較を行う予定です。
その際,ある群のnが非常に小さくなると,その群から抽出した標本の計測データの平均値が誤差の大きいものになってしまうことを危惧しています。
た とえば,本来存在比率が違うA型・B型・O型・AB型を100名ずつ抽出し,何らかの計測値の平均を比較するのと同じ意味合いだと思うのですが,統計学上 問題はないでしょうか?言い換えると,各血液型のそれぞれを母集団と考えて,各母集団から同数のnを抽出して比較をするのは差し支えないでしょうか?
primitiveで当たり前すぎるので質問の意味が逆に分かりづらいのかもしれませんが,何卒ご指導のほどお願い申し上げます。

No.13505 Re: 標本の抽出法  【知ったかぶり】 2010/09/28(Tue) 16:45

>各血液型のそれぞれを母集団と考えて,各母集団から同数のnを抽出して比較をするのは差し支えないでしょうか?

無限母集団からのランダムな抽出とみなすことができるのであれば,何の問題もないのでは?

よくわからないのは,

>母集団をある計測値から3群に分けて比較したい

群を分けるための計測値と比較したい計測値は別物ですよね?

No.13506 Re: 標本の抽出法  【TAK】 2010/09/28(Tue) 17:23

コメントありがとうございます。

群を分けるための計測値と比較したい計測値は別の項目です。

母集団の比率に応じた抽出では,ある一つの群が極端に数が少なくなってしまいます。
例えば,A群5例,B群20例,C群30例 のような感じになってしまいます。
かといって,A群を30例に増やすとB群120例,C群180例となり,データの計測がかなり大変になってしまうのです(既にデータが揃っていればいいのですが,これから計測する項目が複数あるのです)。

母集団は有限でして,一番少ないA群でおおよそ60例です。その中からランダムに20〜30例を選んで調査対象とし,B群・C群も同数を調査したいと考えております。

このようなケースはいかがでしょうか?

No.13508 Re: 標本の抽出法  【知ったかぶり】 2010/09/28(Tue) 17:48

正直なところ,状況が全くイメージできません.もう少し具体的に書くことはできないのでしょうか?「母集団」という用語の使い方にも問題があるような…

No.13511 Re: 標本の抽出法  【TAK】 2010/09/28(Tue) 20:18

文章が分かりづらくて申し訳ございません。

少し具体的に書かせて頂くと,

母集団は1000例ほどで,計測値の違いから3群に分けるとA群100例,B群400例,C群500例のように分かれます。
この母集団から各群の比率に応じて標本を抽出する場合,A群:B群:C群=1:4:5であるため,分析標本数を60例にした場合ではA群6例,B群24例,C群30例となってしまいます。
この時,A群は6例と少なく計測データの平均値の誤差も大きくなりますので,出来ればA郡も20〜30例をデータ解析の対象にしたいと思っています。
そこで,各群から例えば20例ずつをランダムに抽出して,それらを比較検討することは統計学的に問題があるのか,という疑問が生じたわけです。

前述した血液型の場合は,存在比率が型によってだいぶ違うと思いますが,各々の数が非常に大きいため,各血液型から同数を抽出し比較するのは問題がないと思うのですが・・・

私のケースはおおよそ上記の通り全症例が1000例程です。上記のように各群から20例ほどを抽出して比較しても問題はないでしょうか?

No.13512 Re: 標本の抽出法  【青木繁伸】 2010/09/28(Tue) 21:28

「各々の数が非常に大きいため」?層でもないと思いますけど。また,母集団のサイズもそんなに大きいとはいえないと思いますけどね。
全数調査すれば検定だのなんだのというもんだいも起きないので,全数調査すればすむことでしょう。もっとも,1サンプル当たりの調査時間/費用が馬鹿にならないんですよと言うことなら別ですけど。

検定の対象は,割合でしょうか平均値でしょうか?ちょっと,シミュレーションでもしてみますかね?

No.13513 Re: 標本の抽出法  【TAK】 2010/09/29(Wed) 00:00

ご回答いただき,誠にありがとうございます。

「各々の数が非常に大きい」というのは例えに挙げたケースに関してでして,今回自分が調査している母集団(n=1000)のことではありません。誤解を招く記載で申し訳ございませんでした。

確かに可能なら全数調査したいところなのですが,先生のご指摘の通り,1サンプルあたりの調査にかなり時間がかかってしまうのです。

検定の対象は各群における計測データの平均値と分散です。
シュミレーションをしたいところですが,現在データの集積中であります。

No.13514 Re: 標本の抽出法  【知ったかぶり】 2010/09/29(Wed) 00:47

>全症例が1000例程

とのことですが,これは母集団ではなく標本ではありませんか。どん なに珍しい病気であっても,その病気にかかっている人を全て把握できているわけではないでしょうし,過去および未来について考えれば,そのような人は無限 に存在すると考えるべきでしょう。無限母集団からのサンプリングと考えるのが妥当であるように思います。

問題となるのは,サンプルサイズではなく,群分けによる偏りではないでしょうか。3群に分けたとき,対象となる変数に影響を与えうる因子(年齢,性別 etc.)に偏りがあった場合,ランダムサンプリングの前提が満たされなくなります。

なんとなく解析の方向性が間違っているように思います。

No.13516 Re: 標本の抽出法  【TAK】 2010/09/29(Wed) 09:35

ご指摘ありがとうございます。
母集団の定義については今私が議論したい内容ではないのですが・・・
一応補足します。

今回の1000例は私の病院である手術を受けた全ての患者のことを指しています。
この場合,「一施設である特定の治療を受けた全ての患者」ですから,
母集団と考えて問題ないのではないでしょうか?その1000例以外には上記の条件を満たす症例は地球上に存在しないのです。間違っていますでしょうか?

今回の調査では前述の理由で1000例全て調べることは難しいためサンプルサイズを小さくしたいと思って今回質問をさせて頂いています。
他の因子を全てマッチングさせることは不可能と思いますが,群分けに使った計測値は年齢・性別などに影響されるものではありませんし,実際に3群で年齢・性別・病期・進行度など術前のステータスに有意差はありません。

3群間において目的変数(術後の計測値など)に有意差があるかどうかはこれから行う計測の結果次第です。

統計学は大学の教養課程(約20年前)の授業を受けた程度で,医者になってからは臨床畑でやってきていますので,研究手法に関しては自信がありません。議論のレベルが低くて誠に申し訳ございません・・・・
解析の方向性(?)が間違っているとのことですが,どのように間違っているのか,また,どのように解析すればよいのか,今一度ご教示頂けると幸いです。何卒宜しくお願い申し上げます。

No.13517 Re: 標本の抽出法  【知ったかぶり】 2010/09/29(Wed) 10:36

仮に全数調査を行ったと考えてみてください。有限母集団であれば,検定も推定も必要ありません。得られた平均値な りなんなりは母数ですから。それでも検定が必要だ,というのであれば,それは1000例がもっと大きな母集団からの標本であるとみなしていることになりま す.どちらでしょうか?

有限か無限かにこだわるのは,定義の問題ではなく,統計的手法の選択に関わってくるからです。

No.13518 Re: 標本の抽出法  【ひの】 2010/09/29(Wed) 11:04

>今回の1000例は私の病院である手術を受けた全ての患者のことを指しています。
この場合,「一施設である特定の治療を受けた全ての患者」ですから,
母集団と考えて問題ないのではないでしょうか?その1000例以外には上記の条件を満たす症例は地球上に存在しないのです。間違っていますでしょうか?

 その病院での過去の症例についての記述統計を行うのが目的なら,そう考えても良いと思います。しかしその結果を敷衍してもっと一般化した議論を行うつもりなら,この1000例はもっと大きな母集団について考察するためのサンプルと考えるべきでしょう。
  例えばその病院は閉鎖してもう手術が行われることはないのですか?今後も存続して手術が行われるのであるならば,「この病院で手術を受ける患者」という母 集団はまだ増え続けます。これまでの症例の解析を今後に活かそうと考えているのなら,この1000例は未来までも含めた「この病院で手術を受ける患者」と いう母集団からのサンプルということになります。
 「この病院」という限定子を取り払ってもっと一般化した議論を行う根拠としたいのなら母集団はさらに大きくなります。

No.13519 Re: 標本の抽出法  【TAK】 2010/09/29(Wed) 12:43

みなさま,初心者の低レベルなな質問に対して丁寧なご回答誠にありがとうございます。なかなかうまく内容が伝わらなくて申し訳ございません。

> 仮に全数調査を行ったと考えてみてください。有限母集団であれば,検定も推定も必要ありません。得られた平均値なりなんなりは母数ですから。それでも検定 が必要だ,というのであれば,それは1000例がもっと大きな母集団からの標本であるとみなしていることになります.どちらでしょうか?

 今回は約1000例の有限母集団ととらえていますが,全数調査は不可能ですので合計で60〜100例ほどのサンプルを抽出したいと考えています。
 そこで,私が伺いたいのは,「サンプルの抽出を前述のような方法(すなわち,層化抽出法でいう比例割当ではなく,母集団を予め3群(部分母集団)に分けて,その各々の群から同数のサンプルをランダムに抽出する方法)で行っても構わないのか?」ということです。
 各群から抽出したサンプルを統合して論じるわけではなく,3つの群間の比較のみを行うわけですので,比例割当の考えは不要なのかな?と思っているのですが,いかがでしょうか?

>その病院での過去の症例についての記述統計を行うのが目的なら,そう考えても良いと思います。

 まさに,当院での過去の症例について記述統計を行うのが目的です。ですので,現在までの症例を有限母集団と考えております。
 ちなみに病院は閉鎖もしませんし手術も継続して行います。そういう意味では,ひの様がおっしゃるように,現在までの症例はもっと大きな母集団のサンプルと考えるのも理解できます。

No.13520 Re: 標本の抽出法  【青木繁伸】 2010/09/29(Wed) 13:19

この場合は,調査可能なサンプルサイズを三等分して各群から同数ずつとるのが,検出力が一番高くなります。

No.13522 Re: 標本の抽出法  【TAK】 2010/09/29(Wed) 17:53

青木先生,どうもありがとうございます。
ご回答いただきました内容で,大変よく納得できました。
私の説明不足で色々な方にご迷惑をお掛けしました。最初から具体的に説明するべきでした。申し訳ありません。今後とも何卒宜しくお願い申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る