No.14494 自由度調整済みR2  【統計初心者】 2011/04/03(Sun) 19:06

いつもお世話になっております。200例ぐらいの患者のある値Yに対して,性別や病気の重症度など7要素(X1-X7)と 関連があるかを調べています。JMPを用いてステップワイズ重回帰分析をおこない,4つ(X1-4)が解析に残り,そのうち性別(X1),X2の二つが, P<0.0001となりYの決定因子として相関があると考えました。ところが,自由度調整ずみR2が0.11と低いため,この回帰式でYの11%し か説明できていないということになりました。この場合でも,性別とX2はYの値の決定に影響すると結論づけても良いのでしょうか?実際下記URLの Circulationの論文でもTable3でadjusted R2が0.144となっており,症例数が増えるとある程度自由度調整済みR2が低くなるのはやむを得ないのかなと解釈しております。また,下記URLの Table3の一番右のstepwiseの欄でそれぞれの因子の横に一つずつadjusted R2があるのはどういう意味でしょうか?JMPではまとめて一つしかadjusted R2は出てきません。長々と申し訳ありませんがよろしくお願いいたします。
http://www.formindep.org/IMG/pdf/Circ_-_Simonetti.pdf

No.14495 Re: 自由度調整済みR2  【青木繁伸】 2011/04/04(Mon) 09:25

> 症例数が増えるとある程度自由度調整済みR2が低くなるのはやむを得ないのかなと解釈しております

そ んなことはありません。症例数が少ない場合には,標本誤差でたまたまR2が低いデータセットが得られることがあるでしょうが,症例数が多ければ標本誤差は 小さくなりますので,母集団でのR2に近いR2が得られるようになるのです。症例数が多いのにR2が小さいそれも0.1程度ということはそれらの説明変数 で従属変数を説明することはできないということです。そのような状況で「この場合でも,性別とX2はYの値の決定に影響すると結論づけても良いのでしょう か」ということですが,「影響はある(0ではない)のでしょうが,全体から見ればほんのわずかの部分を占めるに過ぎない」ということでしょう。それらの説 明変数が例えば一標準偏差大きくなると従属変数がどれだけ変化するかというのが,標準化偏回帰係数ですから,その値が従属変数のどれくらいを占めるのかを 見れば客観的に評価できるでしょう。

No.14496 Re: 自由度調整済みR2  【統計初心者】 2011/04/04(Mon) 12:21

青木先生回答いただきありがとうございます。

すべてを得られた式であらわすのが目的ではなく,あ る程度を予想し,性別とその値Yとの関連を示す場合には,R2よりもむしろ,性別のP値や標準β(標準化偏回帰係数は標準βのことですよね?)が大切とい う解釈でよろしいでしょうか?Circulation誌でもadjusted R2が低い回帰式を提示し,それを基に関連性を論じているということはなおさらそのような解釈を可能と考えてしまいます。

下記URLの Table3の一番右のstepwiseの欄でそれぞれの因子の横に一つずつadjusted R2があるのはどういう意味でしょうか?adjusted R2は回帰式に対する値ではないのですか? それぞれの説明変数に対するadjusted R2の意味がよくわかりません。JMPではまとめて一つしかadjusted R2は出てきません。長々と申し訳ありませんがよろしくお願いいたします。

No.14497 Re: 自由度調整済みR2  【青木繁伸】 2011/04/04(Mon) 13:13

> R2よりもむしろ,性別のP値や標準β(標準化偏回帰係数は標準βのことですよね?)が大切という解釈でよろしいでしょうか

両方大切ですよ。
ち なみに,Table 3 の結果中で,βは標準β(あまりお勧めの用語ではないですけど)ではないようですが,たとえば Systolic BP の Stepwise Multiple Regression で,BMI のβはわずかに 1 程度ですよ。これは,BMI が 1 増えても,1 mmHg しか変化しないということです。いかに意味がないかわかるでしょう。にもかかわらず P < 0.0001 なのですから。Adjusted R2 が 0.3 程度であっても,他の分野でそんな論文提出したら,まず査読段階でふるい落とされるのでは?

> Circulation誌でもadjusted R2が低い回帰式を提示し,それを基に関連性を論じているということはなおさらそのような解釈を可能と考えてしまいます

まあ,その分野では,そのように低いR2でも仕方ないのかもしれませんが,好ましいものではないでしょう。

> 下記URLのTable3の一番右のstepwiseの欄でそれぞれの因子の横に一つずつadjusted R2があるのはどういう意味でしょうか

わかりません。直接,著者に質問すればよいかも知れませんね。
ま あ,推測に過ぎませんが,BMI と Height の他に一つずつ変数を加えた(例えば BMI, Height, Gender の 3 変数を使った)ときの adjusted R2 を Gender の欄に書いているだけでは?。それにしても,そのような adjusted R2 が 0.01 にも満たないものがあるとは,驚きですね。

なお,投稿フォームの「URL」欄は,参考 URL を書くべきものではありません(投稿者のホームページ用です)。一度指定すると記憶されてしまいますので,消去した状態で投稿してください。

No.14498 Re: 自由度調整済みR2  【統計初心者】 2011/04/04(Mon) 20:00

青木先生 ありがとうございます。URLの件失礼いたしました。Circulation誌は循環器内科では最も権 威があり,しかもこの論文の副題は両親の喫煙が子供の高血圧に影響するとなっています。このTable3でいうと,影響はわずかであるが (β=0.079,adjusted R2 0.025)両親の高血圧は子供の高血圧と関連があるよということなのでしょうか。また,いろいろな説明変数があって完全な予想式は求められないけれど も,説明変数が従属変数Yに影響を与えているということを知りたい場合は,自由調整度済みR2(adjusted R2)が小さくてもよいと考えているのでしょうか?それとも一般的には自由調整済みR2が0.2とかでは意味がないと切り捨ててしまうものなのでしょう か?よろしくお願いします。

No.14499 Re: 自由度調整済みR2  【青木繁伸】 2011/04/04(Mon) 21:26

> 影響はわずかであるが(β=0.079,adjusted R2 0.025)両親の高血圧は子供の高血圧と関連があるよということなのでしょうか。

普 通は,その程度の関連は,「ほとんどない」と判断されるべきものではないですか?私は,その分野の専門ではありませんが,その変数が 1 単位(標準βではないので)増加すると(ダミー変数だから,両親が高血圧であるものは,そうでないものに比べ)血圧が 0.079 mm Hg 増加するということが意味があるのでしょうか?(全く!ない!!でしょう!!!)

> いろいろな説明変数があって完全な予想式は求められないけれども,説明変数が従属変数Yに影響を与えているということを知りたい場合は,自由調整度済みR2(adjusted R2)が小さくてもよいと考えているのでしょうか?

同 時に考慮した独立変数の効果と併せて,従属変数の 2.5% しか説明できないものに意味があるのでしょうか?他の変数でも同じ分析をして,それらの中で最も説明率が大きかったとか,他の変数の数百倍の説明率であっ たといっても意味があるのでしょうか?その分野で,意味があるという判断なら(査読者がちゃんと判断したなら)それでよいのでしょう。
査読者や,Circulation 誌はともかくとして,あなた自身はその結果をどう思うのでしょうか?「著者らに同感!」というなら,それでよいでしょう。門外漢の私は,何をかいわんやです。これでおしまい。

> 一般的には自由調整済みR2が0.2とかでは意味がないと切り捨ててしまうものなのでしょうか?

ですから,何回も書いたように,分野・問題によって違うでしょうということ。
しかし,「自由調整済みR2が0.2」がどういうことを意味しているか,査読者なり読者はちゃんと理解しているのだろうかという疑問は残ります。

「著者らが挙げた要因は,子供の血圧とは何の関係もない」と思いますけどね。

あ まり,本気でその論文読む気もないので,斜め読みしているので全体像を把握しているかどうか心許ない(ちゃんと読めていないかも知れない)ですけ ど,Fugure 1 なんか見ると,明らかだと思うんですよ。この図は,著者らの思惑に反して(?)Parental Smoking なんて Systolic/Diastolic BP に何の差も及ぼしていない。だって,メディアン(長方形の中の水平線)はほとんど違わない。しかるに,統計学的には有意差があるということで(サンプルサ イズがでかいからね),アスタリスクが表示されている。この図と説明を書いているところをみると,著者らは統計学的な有意と実質的な有意の区別が付いてい ない。査読者もそれを見逃し,編集委員会もそれを見逃し,読者もそれを指摘していない。

> Children exposed to parental smoking at home had higher systolic and diastolic BP than unexposed subjects (Figure 1). The number of cigarettes smoked by the mothers, but not paternal cigarette consumption, was correlated linearly with systolic BP (r=0.06, P<0.03).

いくら P 値が 0.03 であっても,相関係数が 0.06 じゃ話にならない。
この論文では,それぞれの独立変数と従属変数の相関係数の表がないけど,もしその相関係数の表が掲載されていたら欠陥はもっと明らかになっているのではないかな。
査 読者,編集者,読者は重回帰分析ということで目くらましにあっているけど(重回帰分析の結果を見ても今までさんざん指摘しているように,わかるのだけ ど),相関係数を見せられたら誰にもわかるのではないかな。原因と結果の相関係数が 0.1 に満たないなどということが明白に示されていれば,だれも相手にしないと思うんですけどねえ?
著者らさえも,なにも,査読者,編集者,読者をだまそうなんてさらさら思っていなくて,「大発見だあ〜〜」と喜んで論文投稿したのであろうかとも思いますけど。

No.14500 Re: 自由度調整済みR2  【統計初心者】 2011/04/05(Tue) 02:54

青木先生本当にありがとうございました。IFのたかい論文でもずさんな点があるということもよくわかりました。今後ともよろしくお願いいたします。

● 「統計学関連なんでもあり」の過去ログ--- 044 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る