No.14927 データの扱い  【統計初心者】 2011/07/06(Wed) 22:50

あるアンケート調査データを使って重回帰分析をしようとしています。ケース(分析のユニット)は47の都道府県です。使う調査データは全国規模で行われた,サンプル数4000のものです。

いくつかの変数(性別,年齢,教育,結婚してるか否か)などをコントロール変数として使いたいのですが,データの扱いがよくわかりません。

特 に「年齢」なのですが,調査データ(エクセル)には,35,26,67,43など,アンケートに答えた方の年齢が列挙されています。ここで,都道府県を ケースとして分析する場合,どのように各都道府県の「年齢」変数を算出すればよいのでしょうか? それぞれの都道府県のサンプルの年齢を単純平均すればよ いかと考えたのですが,どうも不安です。スタンダードな方法等があればご教授ください。

No.14928 Re: データの扱い  【青木繁伸】 2011/07/07(Thu) 06:36

なぜ「ケース(分析のユニット)は47の都道府県」なのか。
そのようにするなら,平均値でも使わないと無理でしょう。

No.14935 Re: データの扱い  【タカ】 2011/07/07(Thu) 18:48

早速の返答ありがとうございました。年齢の平均値でやってみます。

No.14936 Re: データの扱い  【青木繁伸】 2011/07/07(Thu) 20:47

> 年齢の平均値でやってみます。

それでよいと思いますか?

>> なぜ「ケース(分析のユニット)は47の都道府県」なのか。

についてはどのように思うんでしょうか?
やればよいというものじゃないと思うのですよ。
何を目的としてやろうとしているんですか?
どのような意味のあることなんですか?

No.14937 Re: データの扱い  【タカ】 2011/07/07(Thu) 23:07

ある目的変数と説明変数の関係について,都道府県別(地域単位)で見たとき,どういった違いがあるかを説明しようとしています。

>年齢の平均値

ア ンケート調査のデータには各回答者の現在の住居地(都道府県)や年齢が記載されているのですが,「年齢」という個人レベルの変数を考えるとき,各都道府県 の年齢を単純平均してしまうと,各県の年齢の標準偏差や最大値・最小値によって微妙な歪みが起きてしまうような気がして,単純平均に躊躇していました。

これに関連して,根本的な質問があります。あまり理解できていないので,ちゃんと質問できるか不安ですが,以下に書きます。

国 家を分析単位に重回帰分析をおこなっている論文を読んでいると,国連やEUの統計データを元に様々な変数が使われています。GDP,大学進学率,対GDP の社会保障費額などです。こうした国レベルの変数は理解できるのですが,中には個人レベルの変数が使われています。年齢,性別,職業などです。もともとの アンケート調査は各国の個人を対象にしたものなので,膨大な回答者のそれぞれの年齢や性別はわかるはずです。しかし,これらの論文の分析単位はあくまで国 家なのに,なぜ個人レベルの変数が利用できるのか,できるのならどのように行っているのか疑問なのです。

たとえば,手元にある論文(29カ国が分析ユニット, N=21428)では,Descriptive Statisticsの表が載っていて,

Individual characteristicsの項目には以下のようにあります。
Variable     Minimun        Maximum        Mean
Education 1.00 68.00 18.33
Male 0.00 1.00 44.36
Female 0.00 1.00 55.64
Age 0.00 8.40 3.49
Age2 0.00 70.56 14.89
Married 0.00 1.00 0.67
Single 0.00 1.00 0.12
Divorced 0.00 1.00 0.08
Widowed 0.00 1.00 0.12
最後の4行のMarried, Single,Divorced, Widowed(結婚歴)のMeanをすべて足すとほぼ100%になり,同様にMaleとFemaleのMeanを足しても100%になります。しかし,この表の意味がいまひとつよくわかりません。

この論文では個人レベルの変数をコントロール変数として使っていて,私も同様のことをしたいと思っています。

統計初心者で説明不足もあるかと思いますが,よろしくお願いいたします。

No.14938 Re: データの扱い  【青木繁伸】 2011/07/08(Fri) 07:02

> 最後の4行のMarried, Single,Divorced, Widowed(結婚歴)のMeanをすべて足すとほぼ100%になり,同様にMaleとFemaleのMeanを足しても100%になります。しかし, この表の意味がいまひとつよくわかりません。

カテゴリー変数のMeanの欄はあなたのいうように割合(%)です(各カテゴリーは該当:1,非該当:0となっているのが,Minimum, Maximun 欄を見ればわかる。0/1 データの平均は割合になる)。

> 各都道府県の年齢を単純平均してしまうと,各県の年齢の標準偏差や最大値・最小値によって微妙な歪みが起きてしまうような気がして,単純平均に躊躇していました。

あなたが危惧するようなことの他に,都道府県ごとのサンプルサイズの違いも影響するでしょう。

No.14939 Re: データの扱い  【タカ】 2011/07/09(Sat) 20:51

青木先生

早速の返答,感謝いたします。

記述統計の表は,そうすると29カ国すべて,つまり回答者全体の男女の割合(44.36: 55.64)や結婚歴の割合(0.67, 0.12, 0.08, 0.12)を示しているということでしょうか。

私 の目的としては個人レベルの変数(年齢,性別,職業など)をすべてコントロールして分析したいのですが,この場合,具体的にはどのような操作をすればよい のでしょうか。ちなみに,分析はSPSSを使っておりまして,SPSSのデータを打ち込む箇所(変数欄)に個人レベル変数の数値をどのように入れればよい のか,理解できないでいます。

現在,表は以下のようになっています。

分析ユニット  年齢変数  性別変数  結婚歴変数

北海道      ?      ?     ?
青森       ?      ?     ?
岩手       ?      ?     ?



沖縄

こ の場合に各セルに何を入れればよいのかよくわからないのです。今のところ,各都道府県別に年齢の単純平均値を算出して,それを入れています。結婚歴の場合 なら,結婚していると回答した者の割合を各県別に算出して,それを入れています。私の目的はあくまで個人レベルの影響を排して分析したい,ということです ので,これでよいのでしょうか。そのほか,こういう方法がある,ということがございましたら教えていただきたいです。

No.14945 Re: データの扱い  【青木繁伸】 2011/07/09(Sat) 22:23

> 記述統計の表は,そうすると29カ国すべて,つまり回答者全体の男女の割合(44.36: 55.64)や結婚歴の割合(0.67, 0.12, 0.08, 0.12)を示しているということでしょうか。

N=21428 の集計結果でしょう。

「コントロール変数」 とか「コントロールして分析」とか書かれていますけど,独立変数として使うということですよね。

「個 人レベルの影響を排して分析したい」というのが何を意図しているのかよく分かりませんが,それぞれの都道府県について年齢変数,性別変数,結婚歴変数を使 うのなら,あなたが今やっているようにしかできないでしょう。例えば,年齢を一つの数値として使うのが余りにも情報を簡約化しすぎていると思うならば,最 小値,第1四分位,中央値,第3四分位,最高値も用いるなんてこともありうるかも知れないけど,サンプルサイズが47なので,そんなにたくさんの独立変数 を使うこともできませんしね。

> そのほか,こういう方法がある,ということがございましたら

私には心当たりがないですね。
このような分析には問題点が多すぎて,同じようなことをやったことがありません。

No.14946 Re: データの扱い  【タカ】 2011/07/11(Mon) 03:05

その後,様々な論文を読んでいると,どうやら私がやりたかったことは,マルチレベル分析と呼ばれる統計手法だということがわかりました。SPSSでも対応できるということなので,とりあえずは実際に分析を行ってみます。

結局のところ,自分のやりたいことについて,イメージだけが先行し,やや混乱しておりました。説明が上手くできませんで,失礼しました。もうすこし,この分析手法について勉強してみます。また疑問が生まれれば,質問させてください。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る