No.20618 Cookの距離が異なる  【みち】 2013/12/06(Fri) 10:07

一般線型モデルで計算できるCookの距離について質問いたします。

データセットのソート順により,Cookの距離が異なる結果になる,ことはあり得るのでしょうか?

私の理解では,ケースiをモデルの推定の計算から除外した場合に,すべてのケースの残差がどの程度変かするかを示す距離なので,ソート順が原因であるケースに対するCookの距離が変わることはない,と考えていました。
しかし,実際に統計ソフトを使って実施してみたところ,異なるケースが散見されたのです。

統計ソフトはSPSS Staticstics22を使っています。
(ソフトの誤作動の可能性もあるので,ソフトウェアベンダーにも確認するつもりです)

数学的に,Cookの距離が異なることがあるのか,ご教示ください。

よろしくお願いいたします。

No.20619 Re: Cookの距離が異なる  【青木繁伸】 2013/12/06(Fri) 17:08

結果が異なる最小限のデータとモデルを示せばよいかも。

No.20628 Re: Cookの距離が異なる  【みち】 2013/12/09(Mon) 10:05

青木先生
ご指摘ありがとうございました。
基本的な情報が抜けており,大変失礼しました。

今回使用しているファイルをcsv形式で添付いたしました。
ファイルには以下4変数,80ケースが入力されています。

一般線型モデルで以下のように設定しCookの距離を求めました。
ソート順を変更し再度計算すると,Cookの距離が異なるケースがいくつかありました。

 Studienummer
 Livsstil     ->固定因子1
 MammaAlderFodelse ->固定因子2
 LN_M_Cd      ->目的変数

固定因子2として使用している変数は連続変数と考えるべきデータなので
そもそも,モデルの設定が間違っているのかも,と考えます。

これが理由でCookの距離が異なることがあるのでしょうか?
もしくは,その他の理由で異なる結果になるのでしょうか?
不明な点はご指摘ください。

どうぞよろしくお願いします。

No.20629 Re: Cookの距離が異なる  【みち】 2013/12/09(Mon) 10:09

先に投稿しました件のデータです。
データファイルとして添付できず,以下にデータの一部を表示します。
よろしくお願いします。

Studienummer Livsstil MammaAlderFodelse LN_M_Cd
14 1 24 -0.98340229
62 1 40 -1.770217285
64 1 27 -0.731978719
89 1 43 -0.944816382
130 1 46 -1.039212032
163 3 31 -0.411186618
260 1 31 -0.671573072
272 1 25 -0.943568757
316 1 22 -0.698018808
329 1 42 -1.114094353
307 3 26 -1.213815721
35 3 30 -1.3966762
165 3 32 -1.438630595
209 3 30 -1.411356703
110 3 32 -1.505898598
326 3 33 -1.061783865
23 1 32 -0.727574206
86 3 32 -1.417951667
121 3 30 -1.442960078
160 1 33 -1.014845364
270 3 33 -0.994586962
204 1 35 -0.754337339
308 3 32 -1.31293512
75 3 38 -0.891698906
40 3 38 -0.98316855

No.20630 Re: Cookの距離が異なる  【青木繁伸】 2013/12/09(Mon) 11:00

80件分のデータでなくても,現象は再現できるのですね。そうでないなら,再現できるデータを掲示して下さい。80件全部を使わなくても再現できるなら,最小限のデータを,全部提示して下さい。
また,このデータをどのように分析したら,どのように異なった結果になるのかを示して下さい。
勝手にやってくれといわれても,訳が分かりませんから。

No.20631 Re: Cookの距離が異なる  【みち】 2013/12/09(Mon) 12:45

青木先生
ご指摘有難うございました。

Cookの距離を複数回計算して,異なる結果が得られたデータを以下に示します(38ケース)。
1回目はこのデータの順序で一般線型モデルを用いてCookの距離を計算しました。
2回目は,MammaAlderFodelse変数を用いて降順でソートし,同じようにCookの距離を計算したところ,Cookの距離が異なるケースが発生しました。

引き続きよろしくお願いします。

Studienummer,Livsstil,MammaAlderFodelse,LN_M_Cd
2,1,28,-.702791085353409
3,3,33,-1.70337125111988
8,1,32,-1.67514684539841
15,3,35,-3.56492815171739
23,1,32,-.727574206137952
25,1,33,-.162078820713398
33,3,35,-1.94494875522927
35,3,30,-1.39667619974043
69,1,32,-.548304195634946
75,3,38,-.891698905906441
86,3,32,-1.41795166745735
98,1,39,-.914236667922556
110,3,32,-1.50589859769576
111,3,28,-.809570353177973
120,1,34,-1.37330396243271
121,3,30,-1.44296007842696
135,1,37,-1.58998608127647
160,1,33,-1.01484536357495
165,3,32,-1.43863059504387
170,3,27,-1.61887313988085
204,1,35,-.754337339440772
208,1,39,-.456481314101833
209,3,30,-1.41135670284695
210,3,41,-.681799973113055
213,3,34,-.812528187010236
220,1,28,-1.30124790972083
230,1,41,-.567757188591439
233,3,35,-1.38718077722204
255,1,36,-.107245870700221
270,3,33,-.994586961538829
278,1,34,-.232019206901135
280,3,30,-.84501456000918
292,1,38,-.53983175956727
298,1,50,-.183356971792506
307,3,26,-1.21381572110792
308,3,32,-1.31293511956032
322,3,29,-.462203794463044
326,3,33,-1.06178386491688

No.20632 Re: Cookの距離が異なる  【青木繁伸】 2013/12/09(Mon) 14:53

> Cookの距離が異なるケースが発生しました

まだるっこしいですね。
どのようになったか,結果もアップして下さい。どれがどの程度違うのか,全く違うのか,さっぱりわかりません。
それと,あなたが計算した手順(コマンドシンタックス)も。
正しいか,間違えているか判断できません。

No.20633 Re: Cookの距離が異なる  【みち】 2013/12/09(Mon) 18:10

青木先生
引き続きご指導くださりありがとうございます。

以下シンタックスを示します。
*1回目の実行***.
SORT CASES BY Studienummer(A).
UNIANOVA LN_M_Cd BY Livsstil MammaAlderFodelse
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/SAVE=COOK
/CRITERIA=ALPHA(0.05)
/DESIGN=Livsstil MammaAlderFodelse Livsstil*MammaAlderFodelse.

*2回目の実行***.
SORT CASES BY MammaAlderFodelse(D).
UNIANOVA LN_M_Cd BY Livsstil MammaAlderFodelse
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/SAVE=COOK
/CRITERIA=ALPHA(0.05)
/DESIGN=Livsstil MammaAlderFodelse Livsstil*MammaAlderFodelse.
***.
以下にCookの距離を記録したデータを示します。COO_1が1回目の結果,COO_2は2回目の結果です。
Studienummer,Livsstil,MammaAlderFodelse,LN_M_Cd,COO_1,COO_2
298,1,50,-.183356971792506,3.05974318168532,7.66132814780881
210,3,41,-.681799973113055,7.10062721160204,21.6582511417562
230,1,41,-.567757188591439,1.68466563280841,3.94425489789039
98,1,39,-.914236667922556,.0147576390592382,.0147576390592381
208,1,39,-.456481314101833,.014757639059238,.0147576390592382
75,3,38,-.891698905906441, ,
292,1,38,-.53983175956727, ,
135,1,37,-1.58998608127647, ,
255,1,36,-.107245870700221, ,
15,3,35,-3.56492815171739,.169295806643431,.169295806643431
33,3,35,-1.94494875522927,.0132440466030792,.0132440466030792
204,1,35,-.754337339440772, ,
233,3,35,-1.38718077722204,.0878369165889494,.0878369165889494
120,1,34,-1.37330396243271,.0917356308695736,.0917356308695733
213,3,34,-.812528187010236,.079232350853524,.00391270868412464
278,1,34,-.232019206901135,.0917356308695732,.0917356308695735
3,3,33,-1.70337125111988,.0214045158504406,.0214045158504404
25,1,33,-.162078820713398,.0512165505759467,.0512165505759469
160,1,33,-1.01484536357495,.051216550575947,.0512165505759467
270,3,33,-.994586961538829,.00706807517925139,.00706807517925146
326,3,33,-1.06178386491688,.00387269450906465,.00387269450906471
8,1,32,-1.67514684539841,.0505114898411279,.0505114898411277
23,1,32,-.727574206137952,.00692888586009702,.00692888586009708
69,1,32,-.548304195634946,.0200244246785592,.0200244246785594
86,3,32,-1.41795166745735,5.09713183366365E-008,5.09713183367369E-008
110,3,32,-1.50589859769576,.000474330654003038,.000474330654003028
165,3,32,-1.43863059504387,2.44850367803425E-005,2.44850367803403E-005
308,3,32,-1.31293511956032,.000702334849907799,.000702334849907811
35,3,30,-1.39667619974043,.000942116861140638,.000942116861140631
121,3,30,-1.44296007842696,.00178712944354194,.00178712944354193
209,3,30,-1.41135670284695,.00118109624801894,.00118109624801893
280,3,30,-.84501456000918,.0115209003055666,.0115209003055666
322,3,29,-.462203794463044,.178272789420429,.019808087713381
2,1,28,-.702791085353409,.025224099262844,.0252240992628441
111,3,28,-.809570353177973,.140857512628487,.140857512628487
220,1,28,-1.30124790972083,.0252240992628442,.0252240992628441
170,3,27,-1.61887313988085,.316929403414096,0
307,3,26,-1.21381572110792, ,
以下に計算結果をしめします。
1回目も2回目も同じ統計量が算出されていました。
------------------------------------------------------------
Tests of Between-Subjects Effects
Dependent Variable: LN_M_Cd

Source,Type III,Sum of Squares,df,Mean Square,F,Sig.
Corrected Model,9.844a,21,.469,1.453,.225
Intercept,23.306,1,23.306,72.221,.000
Livsstil,.879,1,.879,2.725,.118
MammaAlderFodelse,3.908,14,.279,.865,.604
Livsstil * MammaAlderFodelse,1.418,6,.236,.732,.631
Error,5.163,16,.323
Total,58.747,38
Corrected Total,15.007,37

a R Squared = .656 (Adjusted R Squared = .204)
--------------------------------------------------------
どうぞよろしくお願い致します。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る