No.11356 単回帰分析について  【tommy】 2009/11/30(Mon) 14:46

単純な質問ですが,初学者ですので,お許しください。

(A)データセットXおよびYの相関関係の有無について知りたい。
(B)可能であれば,YとXの関係に基づく推計式も得たい。
(C)ただし,観測できるデータセットXおよびYは,ともにノンパラである。

こ のようなときに,(A)については,ノンパラのスピアマンρやケンドールのτなどを,利用するという方法で,相関関係の有無を確認することができると思い ますが,(B)については,どのようにすればよいのでしょうか。単回帰を使おうにも,Xがパラメトリックではないので,残差もゆがむことになると考えま す。そうすると,単回帰は使えないということでしょうか?Xの対数をとるということもいわれていますが,対数をとっても,適切な残差にならない場合はどう すればよいのでしょうか。残差をプロットする限り,Xを対数変換しても,ダメな感じです。

スピアマンの相関関係のみから,相関の有無を確認することと,そこにさらに単回帰を追加的に行うことによって得られる知見にはどのようなものがありますか? 推計式を得ることを断念するなら,相関の有無を確認すれば,回帰分析を行う意味はないと考えてもよいのでしょうか?

勉強不足で申し訳ありませんが,よろしくお願いします。

No.11358 Re: 単回帰分析について  【tommy】 2009/11/30(Mon) 19:05

自己レスで申し訳ないですが,先の質問を補足させていただきます。

青木先生が別のレスで,以下のようなご説明をされています。
>相関分析は対称(どちらが原因,どちらが結果という区別がない)→回帰直線は不要
>回帰分析は非対称(原因変数と結果変数の区別がある)→回帰直線が必要

Yt とXt-1の関係において(添え字tは時点),1つ前の時点の項目Xt-1が,先の時点のYtに及ぼす効果を分析したいと考えている時,原因と結果という 観点からすれば,Yt=A+B*Xt-1+u という回帰分析をしたいということなのですが,Yt,Xt-1が,それぞれノンパラで,uもプロットすると ノンパラだと明らかなとき,どうすればよいでしょうか。

YtとXt-1のスピアマンの相関係数をとって,有意な相関があるとされたら,そ れをもって,(もちろん,データ的には対称に相関関係があるということが,いえるだけなのでしょうけれど) Xt-1がYtに影響を与えたと解釈するのに は無理がありますか? 無理だとすると,どのような方法があるのでしょうか。

前の質問で,推計式を得たいといったのは,原因と結果(説明と被説明)の区別をしたいという意味で,求めた式により,予測を行いたいという意味ではありません。
申し訳ないですが,よろしくお願いします。

No.11361 Re: 単回帰分析について  【ひの】 2009/11/30(Mon) 20:29


 少なくとも後に起こった事象がそれより過去の事象の原因であるということは論理的に否定できるでしょう。つまり,Yt,Xt-1の間に因果関係があるとすれば,Ytのほうが原因であるということは有り得ないのでXt-1のほうが原因であるといえるでしょう。

 いずれにしろ,相関分析や回帰分析といった統計学的な手法だけでは因果関係を証明することはできません。他の情報が必要です。

No.11365 Re: 単回帰分析について  【surg】 2009/12/01(Tue) 12:58

ひのさんの仰るとおりです.
で,どのような情報が必要かに関しては,以下を参照されるのがよろしいかと.

宮川雅巳:統計的因果推論,朝倉書店
Judea Pearl(黒木学訳):統計的因果推論 モデル・推論・推測,共立出版

No.11374 Re: 単回帰分析について  【tommy】 2009/12/02(Wed) 00:27

> ひのさま

ありがとうございます。おっしゃるとおり,将来の事象が過去の事象の原因であると言うことは,否定できると思います。そうすると,回帰分析による推計式は得られませんが,単純な相関分析から得られる相関でも,原因と結果という「解釈」は成り立つかもしれませんね。

>相関分析や回帰分析といった統計学的な手法だけでは因果関係を証明することはできません。他の情報が必要です。

この点については,一応,YtとXt-1の間には「関係がある」と推論されている先行研究が多くありますので,その仮説をチェックするという背後の流れがあります。それを他の情報と考えてよいのかわかりませんが。
できれば回帰分析で仮説をチェックしたかったのですが,ノンパラなので,どうしようと考えていたのです。
私の領域では,相関分析だけで仮説をチェックするということがあまりなされておらず,ノンパラでも回帰分析(主に重回帰ですが)をしてしまっているようなものが多いので,処理に迷っていました。

>surgさま
参考文献ありがとうございます。ちょっとすぐに手に入りませんが,みてみるようにします。情報というものが,どういうものなのか勉強します。

No.11375 Re: 単回帰分析について  【tommy】 2009/12/02(Wed) 00:31

YtとXt-1の間には「関係がある」と推論されている先行研究
→「YtはXt-1の影響を受けている」と推論されている先行研究
です。訂正しておきます。

No.11377 Re: 単回帰分析について  【青木繁伸】 2009/12/02(Wed) 00:37

そもそも,「XおよびYは,ともにノンパラである」とは,どのようなデータなんでしょう。
ともに,順序尺度データ?どちらかは名義尺度データ?(「データがノンパラ」とはあまりいわないと思うのですけど)

> Xがパラメトリックではないので,残差もゆがむ・・・中略・・・Xの対数をとるということもいわれています

そもそも,独立変数でしょうが順序尺度データの対数は取れないし,従属変数も順序尺度なら残差も計算できないでしょうし。順序尺度変数を無理やり間隔尺度データとみなして分析していると言うことなんでしょうか?かなりの無理がありそうですね。

No.11379 Re: 単回帰分析について  【tommy】 2009/12/02(Wed) 02:51

>青木先生

コメントありがとうございます。言葉の使用法がおかしくて申し訳ないです。

>そもそも,「XおよびYは,ともにノンパラである」とは,どのようなデータなんでしょう。

データは,特定産業の特定時点の株価のデータや企業の各種の財務データです。金額単位なので間隔尺度です。サンプル数は単年度で500程度です。

残 念なことに,利益などはサンプルをとっても,試験の得点のようには正規分布しない傾向があります。一例として0の前後で断絶することが一般的に知られてい ます。認められている範囲の利益操作をすることで0に近くて0より小さい一定範囲の度数は極端に低くなります。(黒字化するために0以上に押し込まれま す。)そして,認められている範囲の操作では,どうしようもない程度の赤字(0から遠いマイナス)から突然度数が増えます。
あるいは,産業によりますが,資産規模が両極によってしまうケースがあります(規模の経済を追求するタイプと効率経営を追求するタイプの二極に分かれる)。この場合は,中心がへこむような分布になります。そのような類の分布を取るようなデータです。

No.11380 Re: 単回帰分析について  【青木繁伸】 2009/12/02(Wed) 08:27

> 金額単位なので間隔尺度です。

あなたの言っていた「ノンパラメトリック・データ」とい うのは,単に,「正規分布に従わないデータ」だったのですね(後から読み返すと端々の用語の使い方に,出ていたのではあるけど,用語の使い方が変なんだろ うと多寡をくくっていた)。しかも,金額単位なら(0やマイナスがない限り)間隔尺度データではなく比尺度データだと思いますけど。実際的にはあなたも説 明しているように,「赤字」はマイナスの値を取りますけどねえ。まあ,比を取らない限りはマイナスや0はあっても関係ないし(もしあったら「Xの対数をと る」なんてできないでしょうし),そもそも,正規分布は負や0の値を取ってはならないなんてことはないのですからね。

用語(説明)が不適切なために,議論の方向が大幅にずれていたのではないかと思いますね。少なくとも,私はあなたの言っているのは順序尺度データのことだと思っていたんですよね。

No.11381 Re: 単回帰分析について  【青木繁伸】 2009/12/02(Wed) 08:50

ということで,改めて。

> Xがパラメトリックではないので,残差もゆがむことになると考えます。そうすると,単回帰は使えないということでしょうか?Xの対数をとるということもい われていますが,対数をとっても,適切な残差にならない場合はどうすればよいのでしょうか。残差をプロットする限り,Xを対数変換しても,ダメな感じで す。

単回帰分析よりは,曲線回帰を考えたらどうですか。「Xの対数をとる単回帰分析」は y = x^a という曲線回帰の便宜的方法だというのはご存じなんでしょう?曲線はそのほかにもいろいろ(種類は少ないけど)あります。

また,「適切な残差にならない」というのはどういう点が適切ではないと判断されたのでしょうか?残差平方和自体が大きい(決定係数が小さい)?残差の中に外れ値がある?残差が一様ではない?http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg8.html の図を参照。

No.11384 Re: 単回帰分析について  【青木繁伸】 2009/12/02(Wed) 12:53

> 利益などはサンプルをとっても,試験の得点のようには正規分布しない傾向があります。一例として0の前後で断絶することが一般的に知られています。認めら れている範囲の利益操作をすることで0に近くて0より小さい一定範囲の度数は極端に低くなります。(黒字化するために0以上に押し込まれます。)そして, 認められている範囲の操作では,どうしようもない程度の赤字(0から遠いマイナス)から突然度数が増えます。

回帰分析に用いられる変数が 正規分布に従わなければならないというのは,そんなに強い制約ではないと思いますよ。現実に多次元正規分布に従うデータなんてほとんどあり得ないことだ し,そんな強い制約に従うべしというならダミー変数を使う回帰分析の立場がなくなる(2値変数が正規分布に従うわけがない)。
また,そんな風な作為的なデータを扱うなら,データ範囲を適切に区分し,複数のダミー変数で表現する(赤字・黒字を表すダミー変数,0に近いデータを表すダミー変数,x1〜x2,x2〜x3,...を表すダミー変数などなど)というようにすればいかがでしょうか?

いずれにせよ,どのように扱うのが妥当かは,そのデータをよく観察・分析しないとね。

No.11386 Re: 単回帰分析について  【tommy】 2009/12/02(Wed) 13:07

青木先生

丁寧なご回答ありがとうございました。

日ごろから,名義尺度と順序尺度は,使える検定方法が限られるために気にかけていましたが,間隔尺度か比尺度かの区別は,あまり気にかけていませんでした。気をつけます。

>「適切な残差にならない」というのはどういう点が適切ではないと判断されたのでしょうか?

青木先生の図でいえば,図3です。残差が不均一な分散の状態です。

>変数が正規分布に従わなければならないというのは,そんなに強い制約ではないと思います

確かにそうなのでしょうね。ダミー変数などは,0,1でも,平気に使われますよね。

私は大学院の計量経済学の講義では,回帰分析のとき,変数が正規分布でないと使えない。残差もきれいに分布していないとダメであると教えられました。ノートにもそうあります。でも,そのあとの講義で,ダミー変数も学習していますから,その時に不思議に思うべきでした。

また,ご指摘のとおり,変数の分布の形状はあまり気にしなくてもよいとしても,図3のような分散不均一となるようなケースだとすると,どのように対応すればよろしいでしょうか。
ここでひっかかって,回帰分析ではなく,関係だけを確認するためなら,相関分析を使うということでよいのだろうか,と考えていたわけです。(でも,因果関係はいえないのかな,と。)質問の趣旨がうまく伝わっていないかもしれませんが・・・。

データ範囲を区分するという建設的なアドバイスも頂いて,大変感謝しております。
不勉強にもかかわらず,丁寧なコメントくださり,ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る