「統計学関連なんでもあり」の過去ログ--- 043

No.11330　予測のための回帰分析の診断（DFFIT,標準化DFFITの参照値）　　【大学院生】　2009/11/25(Wed) 19:00

予測のための回帰分析の診断（DFFITもしくは標準化DFFITの参照値）

統計学は初心者です。青木先生の分かりやすい説明をいつも参考にさせて頂いております。現在，医学系研究結果を論文記述中です。

予測のために回帰分析を行いました（統計ソフトはSPSS，サンプル数は250。独立変数の組合わせから回帰式が有意にならないものがあり，結局重回帰式に含まれた独立変数の数は最大で2つでした（従って得られた予測の回帰式は重回帰よりも単回帰が多い）。これまで回帰式の診断は，SPSSで得られる残差の散布図，Student化された残差， CookのD，てこ比，VIF，Durbin-Watson検定で参照値を使い行ってきましたが，先日Cohen 等（2002）の本で予測のための回帰分析の診断（ケースの影響面）はDFFITS とCookのDで行う，という記述を見つけたためこの2つに絞ろうとしています。DFFITSによる診断の参照値は上記のCohen等の本にサンプル数を基準にしたものがありました（サンプル数が小中規模の合は1以上，大きい場合は，(K+1)/n の平方根を2倍したもの。 Kは独立変数の数。しかし，ここでのサンプル数の大中小が幾つ程度か記述なし）。

実際にDFFITあるいは標準化された DFFIT（SPSS では「標準化DfFit」）での診断結果を含む雑誌論文（複数，主に医学系）を複数読みましたが，参照値不明なものや論文により参照値に違いがありました（例：サンプル数が350で独立変数が2，「標準化DfFit」が2以下ならば問題なしと判断した。サンプル数が24で独立変数が2，標準化された DFFIが1.5のケースを問題ケースとした。サンプル数が20で独立変数が1，参照値を示さず全ケースの中で標準化されたDFFIが相対的に値の高いもの，5.7を問題ケースとした。1.9や-1.9は問題視していない。「標準化DfFit」でもを参照値にした等）。

自分の研究では， 1）DFFITあるいは標準化されたDFFITのどちらを使い，2）その参照値をどれにすべきか判断できず困っています。「標準化された」のだから2の絶対値の範囲でしょうか。また3）予測のための回帰分析のケースの影響面の診断はDFFITS とCookのDで十分なのでしょうか。また回帰診断で参考にするのに適当な本もご紹介頂けるとありがたいです。どうぞよろしくお願いします。