判別分析を行う
使用するデータセット
dataset2.dat データセットのダウンロード 注:ダウンロードの方法
このデータセットは,4 変数 50 ケースからなるデータである。
1 行目は変数名で,4 つの変数をそれぞれ,Group,Var_X,Var_Y,Var_Z と名付けている。
変数 Group は群の種別を表すもので,第 1 群の 25 ケースは 1 という値,第 2 群の 25 ケースは 2 という値を取る。
Var_X,Var_Y,Var_Z の各変数は,第 1 群と第 2 群で以下のような関係を持っている。
第 2 群の Var_X = 第 1 群の Var_X-1
第 2 群の Var_Y = 第 1 群の Var_Y+9
第 2 群の Var_Z = 第 1 群の Var_Z
すなわち,第 2 群のデータセットは,第 1 群のデータセットを Var_X について -1,Var_Y について 9 だけ平行移動したものである。そこで,
第 2 群の Var_X の平均値 = 第 1 群の Var_X の平均値-1
第 2 群の Var_Y の平均値 = 第 1 群の Var_Y の平均値+9
第 2 群の Var_Z の平均値 = 第 1 群の Var_Z の平均値
となるほか,分散・共分散行列も同じになる。
分析によって明らかになること
- Var_Z の平均値は,両群で同じであるにも関わらず,この変数を判別関数に組み入れることにより,判別率が上昇する。
../lecture/Discriminant/index.htmlを参照のこと。
分析プロシージャの指定
Black-Box の中の,「判別分析」を指定する
分析オプションの指定
- 1 回目の分析では「variables=2-3/group-variable=1/stepwise=n」とする。
すなわち,Var_X,Var_Y(2 番目と 3 番目の変数)のみを用いて群を判別することを指示する。ステップワイズ変数選択はしない。
- 2 回目の分析では「variables=2-4/group-variable=1/stepwise=n」とする。
すなわち,Var_X,Var_Y,Var_Z(2 番目から 4 番目の変数)の全てを用いて群を判別することを指示する。この場合も,ステップワイズ変数選択はしない。
分析結果
1 回目の分析の結果
判別分析 Wed Jul 22 21:30:51 1998
データセット名: dataset2.dat
ケース数: 50
変数の個数: 4
有効ケース数: 50
群を表す変数: Group
***** 平均値 *****
全体 群1 群2
Group=1 Group=2
50 ケース 25 ケース 25 ケース
Var_X 21.46000 21.96000 20.96000
Var_Y 14.49200 9.992000 18.99200
***** プールされた群内相関係数行列 *****
Var_X 1.00000
Var_Y 0.60032 1.00000
Var_X Var_Y
***** 分類関数 *****
群1 群2 偏F値 P値
Var_X -0.30039 0.053541 14.119 0.00047
Var_Y -0.40447 -1.5166 63.142 0.00000
定数項 5.319 13.84
偏F値の自由度:(1, 47)
ウィルクスのΛ: 0.4256546
等価なF値: 31.70908 d.f.: (2, 47.00) p value: 0.00000
***** 判別関数 *****
群1 と 群2 の判別
マハラノビスの汎距離: 2.27627
理論的誤判別率: 0.12753
判別係数 標準化判別係数
Var_X 0.17696 1.77083
Var_Y -0.55605 -3.74479
定数項 4.26062
***** 各ケースの判別結果 *****
ケース R P 二乗距離1 二乗距離2 判別値
1 1 ## 2 2.41(0.299) 0.56(0.757) -0.92756
2 1 ## 2 3.23(0.198) 2.87(0.239) -0.18388
3 1 1 0.10(0.952) 6.25(0.044) 3.07599
4 1 1 6.01(0.049) 17.63(0.000) 5.80912
5 1 1 0.91(0.636) 1.78(0.411) 0.43732
6 1 1 1.56(0.458) 5.10(0.078) 1.76984
7 1 1 0.50(0.778) 8.90(0.012) 4.20084
8 1 1 0.36(0.834) 6.09(0.047) 2.86606
9 1 1 3.44(0.179) 6.90(0.032) 1.73072
10 1 ## 2 3.70(0.157) 3.09(0.213) -0.30515
11 1 1 1.82(0.403) 13.08(0.001) 5.63147
12 1 1 0.21(0.899) 3.35(0.188) 1.56720
13 1 1 0.85(0.653) 9.94(0.007) 4.54470
14 1 1 1.95(0.377) 12.76(0.002) 5.40619
15 1 1 0.36(0.834) 2.96(0.227) 1.29932
16 1 1 1.75(0.418) 12.90(0.002) 5.57838
17 1 1 1.71(0.426) 10.19(0.006) 4.24083
18 1 1 4.14(0.126) 5.01(0.082) 0.43412
19 1 ## 2 2.57(0.276) 0.66(0.717) -0.95514
20 1 ## 2 2.74(0.255) 1.95(0.377) -0.39207
21 1 1 0.29(0.866) 5.20(0.074) 2.45410
22 1 1 1.25(0.536) 11.30(0.004) 5.02745
23 1 1 0.07(0.965) 6.31(0.043) 3.11910
24 1 1 3.66(0.161) 14.78(0.001) 5.56260
25 1 1 2.41(0.299) 7.96(0.019) 2.77593
26 2 2 14.63(0.001) 2.41(0.299) -6.10896
27 2 2 13.96(0.001) 3.23(0.198) -5.36528
28 2 2 4.31(0.116) 0.10(0.952) -2.10541
29 2 ## 1 4.76(0.093) 6.01(0.049) 0.62772
30 2 2 10.39(0.006) 0.91(0.636) -4.74408
31 2 2 8.39(0.015) 1.56(0.458) -3.41156
32 2 2 2.46(0.292) 0.50(0.778) -0.98056
33 2 2 4.99(0.082) 0.36(0.834) -2.31533
34 2 2 10.34(0.006) 3.44(0.179) -3.45068
35 2 2 14.67(0.001) 3.70(0.157) -5.48655
36 2 ## 1 0.92(0.632) 1.82(0.403) 0.45007
37 2 2 7.44(0.024) 0.21(0.899) -3.61420
38 2 2 2.13(0.345) 0.85(0.653) -0.63670
39 2 ## 1 1.50(0.472) 1.95(0.377) 0.22479
40 2 2 8.13(0.017) 0.36(0.834) -3.88208
41 2 ## 1 0.95(0.621) 1.75(0.418) 0.39698
42 2 2 3.59(0.166) 1.71(0.426) -0.94057
43 2 2 13.63(0.001) 4.14(0.126) -4.74728
44 2 2 14.85(0.001) 2.57(0.276) -6.13654
45 2 2 13.88(0.001) 2.74(0.255) -5.57346
46 2 2 5.74(0.057) 0.29(0.866) -2.72730
47 2 2 1.56(0.459) 1.25(0.536) -0.15395
48 2 2 4.20(0.123) 0.07(0.965) -2.06230
49 2 ## 1 2.89(0.235) 3.66(0.161) 0.38120
50 2 2 7.22(0.027) 2.41(0.299) -2.40547
メモ:二乗距離は各群の重心までの距離です。
カッコ内の数値は各群に属する確率です。
***** 判別結果総括表 *****
判別された群
実際の群 群1 群2 合計
群1 20 5 25
% ( 80.0) ( 20.0) (100.0)
群2 5 20 25
% ( 20.0) ( 80.0) (100.0)
正判別率: 80.00%
***** 二群の判別図 *****
|
2 回目の分析の結果
判別分析 Wed Jul 22 21:32:16 1998
データセット名: dataset2.dat
ケース数: 50
変数の個数: 4
有効ケース数: 50
群を表す変数: Group
***** 平均値 *****
全体 群1 群2
Group=1 Group=2
50 ケース 25 ケース 25 ケース
Var_X 21.46000 21.96000 20.96000
Var_Y 14.49200 9.992000 18.99200
Var_Z 23.89600 23.89600 23.89600
***** プールされた群内相関係数行列 *****
Var_X 1.00000
Var_Y 0.60032 1.00000
Var_Z 0.40060 0.50187 1.00000
Var_X Var_Y Var_Z
***** 分類関数 *****
群1 群2 偏F値 P値
Var_X -0.10467 0.22 9.9012 0.00290
Var_Y 0.62289 -0.64276 69.826 0.00000
Var_Z -3.1435 -2.6736 3.4488 0.06971
定数項 35.595 35.743
偏F値の自由度:(1, 46)
ウィルクスのΛ: 0.3959674
等価なF値: 23.39039 d.f.: (3, 46.00) p value: 0.00000
***** 判別関数 *****
群1 と 群2 の判別
マハラノビスの汎距離: 2.42028
理論的誤判別率: 0.11311
判別係数 標準化判別係数
Var_X 0.16234 1.62447
Var_Y -0.63283 -4.26186
Var_Z 0.23492 0.94138
定数項 0.07353
***** 各ケースの判別結果 *****
ケース R P 二乗距離1 二乗距離2 判別値
1 1 1 3.25(0.354) 3.59(0.310) 0.16516
2 1 ## 2 3.41(0.332) 3.03(0.388) -0.19299
3 1 1 1.26(0.740) 9.85(0.020) 4.29865
4 1 1 6.90(0.075) 17.65(0.001) 5.37144
5 1 1 0.92(0.820) 2.70(0.440) 0.88852
6 1 1 2.31(0.511) 7.94(0.047) 2.81738
7 1 1 0.59(0.898) 9.17(0.027) 4.29094
8 1 1 1.34(0.720) 9.37(0.025) 4.01632
9 1 1 3.50(0.320) 7.22(0.065) 1.85776
10 1 1 3.79(0.285) 4.35(0.226) 0.27989
11 1 1 2.81(0.422) 16.39(0.001) 6.78847
12 1 1 0.34(0.953) 3.57(0.312) 1.61473
13 1 1 2.88(0.410) 10.30(0.016) 3.71158
14 1 1 1.98(0.576) 13.17(0.004) 5.59554
15 1 1 0.39(0.942) 3.40(0.334) 1.50573
16 1 1 5.64(0.131) 20.71(0.000) 7.53850
17 1 1 2.47(0.480) 13.07(0.004) 5.29857
18 1 1 4.31(0.230) 5.17(0.159) 0.43301
19 1 ## 2 2.72(0.437) 0.86(0.834) -0.92678
20 1 1 3.36(0.340) 4.54(0.208) 0.59369
21 1 1 8.23(0.041) 9.18(0.027) 0.47401
22 1 1 1.35(0.717) 12.61(0.006) 5.62742
23 1 1 1.82(0.611) 6.56(0.087) 2.37082
24 1 1 3.94(0.268) 14.86(0.002) 5.45962
25 1 1 2.49(0.477) 9.18(0.027) 3.34412
26 2 2 14.64(0.002) 3.25(0.354) -5.69261
27 2 2 15.51(0.001) 3.41(0.332) -6.05076
28 2 2 4.37(0.224) 1.26(0.740) -1.55912
29 2 2 7.88(0.049) 6.90(0.075) -0.48633
30 2 2 10.86(0.012) 0.92(0.820) -4.96925
31 2 2 8.39(0.039) 2.31(0.511) -3.04039
32 2 2 3.73(0.293) 0.59(0.898) -1.56683
33 2 2 5.02(0.170) 1.34(0.720) -1.84144
34 2 2 11.50(0.009) 3.50(0.320) -4.00001
35 2 2 14.94(0.002) 3.79(0.285) -5.57788
36 2 ## 1 0.95(0.814) 2.81(0.422) 0.93071
37 2 2 8.82(0.032) 0.34(0.953) -4.24304
38 2 2 7.17(0.067) 2.88(0.410) -2.14618
39 2 2 2.51(0.474) 1.98(0.576) -0.26222
40 2 2 9.09(0.028) 0.39(0.942) -4.35204
41 2 ## 1 2.27(0.517) 5.64(0.131) 1.68073
42 2 2 3.59(0.309) 2.47(0.480) -0.55920
43 2 2 15.16(0.002) 4.31(0.230) -5.42476
44 2 2 16.29(0.001) 2.72(0.437) -6.78455
45 2 2 13.88(0.003) 3.36(0.340) -5.26408
46 2 2 19.00(0.000) 8.23(0.041) -5.38376
47 2 2 1.81(0.613) 1.35(0.717) -0.23035
48 2 2 8.79(0.032) 1.82(0.611) -3.48695
49 2 2 4.74(0.192) 3.94(0.268) -0.39815
50 2 2 7.52(0.057) 2.49(0.477) -2.51364
メモ:二乗距離は各群の重心までの距離です。
カッコ内の数値は各群に属する確率です。
***** 判別結果総括表 *****
判別された群
実際の群 群1 群2 合計
群1 23 2 25
% ( 92.0) ( 8.0) (100.0)
群2 2 23 25
% ( 8.0) ( 92.0) (100.0)
正判別率: 92.00%
***** 二群の判別図 *****
|
演習
- Var_X だけを使って判別するときと,Var_X と Var_Z を使って判別するときの結果を比べてみよ。
- Var_Y だけを使って判別するときと,Var_Y と Var_Z を使って判別するときの結果を比べてみよ。
直前のページへ戻る E-mail to Shigenobu AOKI