No.15140 SPSSの重回帰分析  【SPSS初心者】 2011/08/13(Sat) 09:37

SPSSで重回帰分析を行おうと思っています.

データは年間約2万行のデータです.目的変数は,「0」か「1」です.
それが,13年間分あります.
(約26万行,説明変数になる可能性は10個以上あります.)

私が求める回帰式は,13年間の各年の推移です.(欲しいのは「1」の年間の総数)
具体的な例では,「1990年:2000個,1991年:1980個,1992年:2200個,……,2002年:2050個」といったものを線でつなぐ回帰式です(折れ線グラフ).

最終的には,その線の先にある,未知の2003年,2004年,2005年の予測値を立てたいです.
その予測値と実測値(別のデータ元を利用)の適合性というのを検証したいと思っています.
しかし,その方法がわかりません.

また,適合性については,AICが適切かと思うのですが,どの参考書も変数を2変量に増やしたものを解説しています.
私の場合,説明変数が10個以上になるかと思います.
私の調べた範囲では,
AIC=N*(log(2π*Se/N)+1)+2(p+2),Nはサンプルサイズ,pは説明変数の数,Seは残差平方和,logは自然対数です.
そこで,2変数以上の場合の残差平方和がわかりません.
こちらもあわせてご教示頂けたら幸いです.

私の持っているソフトは,SPSS Statistics19(Statistics base,Advanced statistics,Regression,Decision trees)とExcel2010です.
SPSSは覚えたてで,Excelは関数を使える程度です.

また説明が足りないかもしれませんが,何卒宜しくお願い致します.

No.15143 Re: SPSSの重回帰分析  【青木繁伸】 2011/08/13(Sat) 22:58

> 私が求める回帰式は,13年間の各年の推移です.(欲しいのは「1」の年間の総数)
具体的な例では,「1990年:2000個,1991年:1980個,1992年:2200個,……,2002年:2050個」といったものを線でつなぐ回帰式です(折れ線グラフ).

> 最終的には,その線の先にある,未知の2003年,2004年,2005年の予測値を立てたいです.
> その予測値と実測値(別のデータ元を利用)の適合性というのを検証したいと思っています.
> しかし,その方法がわかりません.

あなたが望む結果を得る方法は,重回帰分析でしょう。従属変数は個数,独立変数は年度そのものおよび,その他のデータ。

> また,適合性については,AICが適切かと思うのですが,どの参考書も変数を2変量に増やしたものを解説しています.
> 私の場合,説明変数が10個以上になるかと思います.

別に,使用する変数が幾つであろうと AIC の計算は適切にされますよ。

> 私の持っているソフトは,SPSS Statistics19(Statistics base,Advanced statistics,Regression,Decision trees)とExcel2010です.
SPSSは覚えたてで,Excelは関数を使える程度です.

Excel ではできないでしょう(アドインを適用すればできるかも知れませんが)

No.15144 Re: SPSSの重回帰分析  【SPSS初心者】 2011/08/14(Sun) 06:08

青木繁伸様,
ご回答ありがとうございます.

重回帰分析で,「従属変数は個数,独立変数は年度そのものおよび,その他のデータ」,とのことですが,独立変数に年度そのもの,と,いうのは,年間のデータ数そのものが変数になりうると考えて宜しいのでしょうか.

AICはソフトが計算することに気付きました.ご指摘ありがとうございます.

No.15145 Re: SPSSの重回帰分析  【青木繁伸】 2011/08/14(Sun) 08:24

> 独立変数に年度そのもの,と,いうのは,年間のデータ数そのものが変数になりうると考えて宜しいのでしょうか.

ここで書いたのは,時間変数ということです。1990年,1991年,1992年,……,2002年
時間変数を使った分析例が以下にありますので,参照してみてください。
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/result.html

ところで,そもそも各年の1の数って,どんなものなんですか?年間のデータ数は毎年変わるのですか。だとすると,従属変数は1の数ではなく,1の割合でないと具合が悪いのではないですか。

No.15146 Re: SPSSの重回帰分析  【SPSS初心者】 2011/08/14(Sun) 13:26

青木繁伸様,
返信ありがとうございます.
具体的に言いますと,火災による死者の発生です.
死者なしが「0」,死者ありが「1」です.
火災件数なので,毎年の年間のデータ数は変化します.
年間約2万件の火災のうち,死者火災(「1」の総数)は1,500件前後です.

以上が,今のところの課題です.

参考例をご教示頂き,ありがとうございます.

No.15147 Re: SPSSの重回帰分析  【SPSS初心者】 2011/08/14(Sun) 13:32

追加情報ですが,1件の火災につき,1行にいろいろなデータが入力されています.
出火月,時間,風速等100項目以上.そこに死者があったか,なかったかも入力されています.
なにか,参考になればと思いまして.

No.15148 Re: SPSSの重回帰分析  【青木繁伸】 2011/08/14(Sun) 16:56

> (欲しいのは「1」の年間の総数)

というのは,適切とは思えません。

> 説明変数になる可能性は10個以上あります

というのは,

> 出火月,時間,風速等100項目以上

の中のいくつかの情報なのですね。

> 具体的な例では,「1990年:2000個,1991年:1980個,1992年:2200個,……,2002年:2050個」といったものを線でつなぐ回帰式

この回帰モデルと存在するデータはぴったりというものではないですね。

年度を独立変数,死者火災件数(率で表すのがベター)を従属変数とすればよいでしょうが,各火災の出火月,時間,風速等100項目以上等の情報は使いようがないでしょう。

も う一つの方法は,13年分の各20000行のデータから,あるタイプの火災が死者を伴うものかどうかの回帰式(これはロジスティック回帰)を作る。これ は,各火災の情報を色々使うことができます。しかし,未知の年度の死者火災件数を予測することはできません。その年度にどのような火災が何件あるか分から ない訳ですから。

どの変数をどのように使い,何を予測するかをもう一度整理することをお勧めします。

No.15150 Re: SPSSの重回帰分析  【SPSS初心者】 2011/08/14(Sun) 17:21

青木繁伸様,
ご返信ありがとうございます.
統計学の知識の無さと,自分が目標としている事象へのアプローチ方法がわかっていないことを痛感しています.
何か,良い手段を整理しないといけないみたいですね.
ありがとうございます.

No.15151 Re: SPSSの重回帰分析  【star】 2011/08/14(Sun) 17:25

青木先生がご指摘の様に,焼死者を出す火災と出さない火災とで,どの様な因子が関連しているのかを調べるのが有意義と思います。
折角,貴重なデータを解析する機会に恵まれているのですから,頑張って下さい。

No.15152 Re: SPSSの重回帰分析  【SPSS初心者】 2011/08/14(Sun) 22:30

star様,
ご意見ありがとうございます.
また,励ましのお言葉,ありがとうございます.
とにかく頑張るしかないので,やるだけやってみます.
再度,この掲示板に相談させて頂くこともあろうかと思いますが,皆様,何卒宜しくお願い致します.

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る