No.09204 Xが%の場合の解析方法と正規分布変換  【9232】 2009/02/12(Thu) 18:05

Regression analysisにおいて,
X=AとBの差についてのBに対する割合の絶対値(%) (式としては,|(A/B)-1| (%))と設定しています。
外れ値を除いたあとのサマリーは以下です。(値は%)
Variable Obs Mean Std. Dev.  Min Max
cli 92 15.89544 14.90592 1.234568 67.82609

STATAで解析しているのですが,使用する値として,
?%(?×100)
?元の値
のどちらが適当なのでしょうか。

どちらも0に偏っているのですが,ln(X+1)を取ると,?は正規分布になるのですが,?は依然偏っています。

また,reviewerから「Xが%ならlog transformationではなくarcsine transがいいのではないか」とコメントされているのですが,arcsineは1(100%)を超える場合も使用できるでしょうか。

ピントがずれておりましたら恐縮です。よろしくお願いいたします。

No.09205 Re: Xが%の場合の解析方法と正規分布変換  【青木繁伸】 2009/02/12(Thu) 21:45

丸付き数字使用禁止は,上の方に説明しています。
X とは,独立変数(説明変数)とでもいうことでしょうか。
(1) というのは,(A-B)/B で,(2) はそれを100倍したパーセント数値ということでしょうか。
どちらが適切かというのは,どっちでも同じでしょう。

> ln(X+1)を取ると,(1)は正規分布になるのですが,(2)は依然偏っています。

正規分布に近くなるのがよいということなら,(1)を採用すればよいのでは?

対数を取る前に,何倍かするという場合に,何倍するかによって分布が変わるのは当然でしょう。むしろ,そのような変換をする妥当性を問題にすべきでしょう。理論的根拠のない,恣意的な変数変は,結果の解釈上も問題でしょう。

> arcsineは1(100%)を超える場合も使用できるでしょうか。

(A-B)/B という定義なら,100%を超えることはないのでは?
当然ながら,arcsine の引数は-1〜1の範囲にないといけませんね。

No.09229 Re: Xが%の場合の解析方法と正規分布変換  【9232】 2009/02/14(Sat) 16:32

ありがとうございます。非常に参考になります。

>X とは,独立変数(説明変数)とでもいうことでしょうか。

失礼しました。Xは誤記であり正しくはY(従属変数)のことです。Y=β+α1X1+α2X2+α3X3・・のmultiple linear regressionを試みています。

>対数を取る前に,何倍かするという場合に,何倍するかによって分布が変わるのは当然でしょう。むしろ,そのような変換をする妥当性を問題にすべきでしょう。理論的根拠のない,恣意的な変数変は,結果の解釈上も問題でしょう。

変 数変換をしない(従属変数がnormal distributionに従わない)場合,regression modelを使うことは可能でしょうか。(私の理解では,regressionは以下4前提を満たすことが必要であり(normal  distribution, independence, mean O error, constant variance),外れ値の削除や対数変換等により4前提を満たす場合に限り使用可と考えていました)
また,もしregressionが使えな いとしましたら,従属変数がquantitative,独立変数(10変数ほど)がquantitativeとqualitativeの場合の相関を調べ たい場合は,どのような解析法が考えられるのでしょうか。(ノンパラメトリックに詳しくなく失礼します)

> arcsineは1(100%)を超える場合も使用できるでしょうか。
>(A-B)/B という定義なら,100%を超えることはないのでは?
当然ながら,arcsine の引数は-1〜1の範囲にないといけませんね

http://aoki2.si.gunma-u.ac.jp/Yogoshu/33.html
上記引用 ”個々のデータが比率である場合,母平均値(母比率)を p とすると分散は p(1-p)/n になり,群間で p が異なれば分散も異なる。”

と ありますが,もしpが「proportion」(上記引用例のように分子は分母の一部であり,rangeは0−1)ではなく,「ratio」(分子と分母 は別物であり,rangeは様々)の場合は,arcsineは使えるのでしょうか。私の例|(A-B)/B|は,おそらく後者に属しており,結果も 0−150%まで幅があるため,変数変換するならばarcsineは適応されずlogのほうがよいのではないかと考えているのですが,いかがでしょうか。

よろしくお願いいたします。

No.09230 Re: Xが%の場合の解析方法と正規分布変換  【青木繁伸】 2009/02/14(Sat) 20:26

> もしpが「proportion」(上記引用例のように分子は分母の一部であり,rangeは0−1)ではなく,「ratio」(分子と分母は別物であり,rangeは様々)の場合は,arcsineは使えるのでしょうか。

つかえません

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る