No.12967 二次データからなる二群を重み付けしてt検定  【井上陽介】 2010/07/04(Sun) 13:17

初めて質問させていただきます。
日本の市区町村レベルの出生性比の地理的不均一性の原因を調べています。

具体的には,日本の人口動態統計のデータを利用し,
(1)SaTScanで,出生性比の地理クラスターを検出し,
(2)さまざまな人口指標を出生性比の高いクラスターと低いクラスターの間で比較しようとしています。

いま,私は(2)を行うときにどのような比較がふさわしいのか悩んでいます。

たとえば,出生性比の高いクラスターに13の市区町村が,出生性比の低いクラスターに7つの市区町村が含まれ,両群の出生時平均余命を比較したいとします。それぞれの人口規模,平均余命はわかります。しかしながら偏差はわかりません。

そ れぞれの市区町村の人口規模はバラバラなので,重み付けをしてそれぞれの群の平均と偏差を求めて,t検定をしたいと思っています。しかしながら,それぞれ の市区町村データの偏差がわからないので,現在は,重み付けをしていない偏差を近似値だと仮定して,つまり,重み付けした平均としていない偏差を混ぜて, 計算していますが,どうも違和感があります。

なにかもっといい方法などご存知でしたら,ご教示いただけますと幸いです。

No.12976 Re: 二次データからなる二群を重み付けしてt検定  【青木繁伸】 2010/07/05(Mon) 11:39

「偏差」とは何を意味していますか?標準偏差?

それにしても,このような検定は,ほとんど有意ということになるでしょうね。

No.12980 Re: 二次データからなる二群を重み付けしてt検定  【井上陽介】 2010/07/05(Mon) 15:26

偏差とは標準偏差です。

説明が不正確でした。
性比が高いクラスターが 13 個,低いクラスターが 7 個存在し,その中にそれぞれ 363 個の市区町村と 227 個の市区町村が含まれています。

今の方法で 20 個の指標について検定統計量を計算し,ボンフェローニの補正を行うと,有意な結果が出るのは半分くらいです。

No.12982 Re: 二次データからなる二群を重み付けしてt検定  【青木繁伸】 2010/07/05(Mon) 16:15

> 性比が高いクラスターが13こ,低いクラスターが7こ存在し,
> その中にそれぞれ363個の市区町村と227個の市区町村が含まれています。
> 今の方法で20個の指標について検定統計量を計算し,
> ボンフェローニの補正を行うと,

何をどのようにして t 検定しているのかよくわからないのですけど。

あ る一つの指標について,二群の t 検定をしているとして,各群を構成するのは,363 と 227 の市町村で,それぞれの市町村の指標の平均値を人口で重み付けして(どのように?)検定に使うんですか。指標の標準偏差ってなんでしょう。363 の市町村の指標値から計算した標準偏差ですか?人口で重み付けしたら,t 値はものすごく大きな値になり,必然的にほとんどどんな場合にも有意ということになると思うんですけど。そもそも,市町村の指標のようなものを検定するの は不適切と思います。その値は標本値ではなく母数そのものですから。

No.12983 Re: 二次データからなる二群を重み付けしてt検定  【青木繁伸】 2010/07/05(Mon) 16:20

> (1)SaTScanで,出生性比の地理クラスターを検出し,
> (2)さまざまな人口指標を出生性比の高いクラスターと低いクラスターの間で比較しようとしています。

(2) において,何らかの違いが見つかったとして,その原因が「出生性比の差である」と結論できるのでしょうか?

No.12984 Re: 二次データからなる二群を重み付けしてt検定  【井上陽介】 2010/07/05(Mon) 16:46

> そもそも,市町村の指標のようなものを検定するのは不適切と思います。その値は標本値ではなく母数そのものですから。

それぞれの市区町村の指標を標本値の一つひとつであると仮定して
分析をしたのですが,無理があるのでしょうか?

> (2) において,何らかの違いが見つかったとして,
> その原因が「出生性比の差である」と結論できるのでしょうか?
出生性比は周囲の環境要因によって変動することが知られています。
出生性比と人口指標が相関をすれば,
それらに共通して影響を与える,
なにかしらの環境要因があることが示唆されると(言えると)考えています。

No.12985 Re: 二次データからなる二群を重み付けしてt検定  【ひの】 2010/07/05(Mon) 17:13

二群に分けて差の検定をするよりも重回帰(相関)分析の方が適切だと思います。

ちょっと気になるのは,「出産は田舎の実家で」というようなケースが少なからずあると思うのですが,データ上どこの統計になっているのでしょうか。つまり親の本来の生活場所と出産場所が全く異なるケースが多いと話の前提が崩れてしまうような気がします。

No.12987 Re: 二次データからなる二群を重み付けしてt検定  【青木繁伸】 2010/07/05(Mon) 17:51

> それぞれの市区町村の指標を標本値の一つひとつであると仮定して分析をしたのですが,無理があるのでしょうか?

標本値であると見るのも,その標本値が市区町村を代表する値であると見るのも,それらを検定するのも,私は相当違和感を感じます。

> 出生性比は周囲の環境要因によって変動することが知られています。

それはそうでしょう。しかし,

> 出生性比と人口指標が相関をすれば,それらに共通して影響を与える,なにかしらの環境要因があることが示唆されると(言えると)考えています。

相関関係と因果関係は同じでないというのは因果推論の最初にいわれることですよね。

例えば,「出生性比が高い市区町村では平均寿命が有意に長い」という陳述は因果関係を表すものとは言い切れないでしょう。年齢構成の若い市区町村なのかも知れないし,医療環境が優れているのかも知れないし,そのほかたくさんの「原因」が考えられますよね?

ひ のさんの指摘は,出生届は親の住所地に出すので出産が実家で行われても別に構わないのですが,近年のように人口の流動性が高く,また職域と居住域が違うよ うな場合には,周囲の環境要因で性比が変化しそれによって人口指標が変わるというパスがかなりゆがめられるのではないでしょうか?

No.12988 Re: 二次データからなる二群を重み付けしてt検定  【青木繁伸】 2010/07/05(Mon) 17:59

データをとっている要素が個人や個体でなく,都道府県や国やある年次についてのものであるときは注意が必要です。 たとえば,ある県で,要因Aをもつ人が多いことと要因Bをもつ人が多いということが同時に観察されたとしても,図の右と左の状況では意味が異なってくるこ とは明らかです。この図では,各個人を円で表し,さらに,それぞれの要因をもつかもたないかとその要因の程度を左右2つに分けた半円の濃淡で表したものと して見てください。左に示した「完全な直接相関」では,片方の要因をもつ人は必ずもう1方の要因をもつという状態ですが,右に示した「完全な間接相関」で は,それぞれの要因をもつ人の人数は「完全な直接相関」の場合と全く同じですが,両方を併せもつ人は1人もいません。つまり,都道府県レベルでのデータ は,2つの要因の因果関係はおろか,相関関係すら明らかにできない可能性があるのです。都道府県ごとに「老年人口割合と道路交通事故負傷者数の関係」を見 る場合などには,すべての道路交通事故負傷者が老人であるわけではないので完全な直接相関でないことは明らかですし,完全な間接相関でないことも明らかで す。実態は両者の中間どころにあるのです。中間のどのあたりかは,個々のデータをとらないとわかりません。


No.12989 Re: 二次データからなる二群を重み付けしてt検定  【井上陽介】 2010/07/05(Mon) 18:35

青木先生,ひのさま

回答ありがとうございます。
おそらくそこは地域相関研究の限界なのかと思います。
いやはや,どうすればいいかわからなくなってしまいました。
もう少し悩んで他の方法を考えてみたいと思います。

No.12990 Re: 二次データからなる二群を重み付けしてt検定  【ひの】 2010/07/05(Mon) 20:17


>ひのさんの指摘は,出生届は親の住所地に出すので出産が実家で行われても別に構わないのですが,

 そう単純でもないのです。出生性比は受精の時点では決まらず,胎内死亡率の性差も影響します。したがって妊婦の環境も出生性比に影響しうるのです。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る