★ 判別分析と数量化II類の判別結果が異なるのはなぜ ★

120. 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる 2003/06/11 (水) 07:57
├130. Re: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸 2003/06/11 (水) 15:23
│└131. Re^2: 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる 2003/06/11 (水) 17:41
│ └132. Re^3: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸 2003/06/11 (水) 18:57
│  └134. Re^4: 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる 2003/06/11 (水) 20:32
└121. Re: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸 2003/06/11 (水) 09:44


120. 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる  2003/06/11 (水) 07:57
 はじめまして。判別分析と数量化II類の判別結果の相違について質問します。
 4つの質的変数で3群の判別予測を行おうとしています。カテゴリー数はX1が5,X2が2,X3が3,X4が4で,ケース数は2401です。これで,青木先生のホームページにあるExcel VBAとBlack-Box両方で判別分析と数量化II類の計算を実行しました。なお,「カテゴリー変数をダミー変数に変換」Excel VBAを使用して変数の変換を行いました。
 その結果,3群の判別結果がパーセンテージでは1ポイント以下ですが,微妙に異なっています。それで,どちらが正しいのかわからず,悩んでいます。任意に100ケースを取り出して計算した結果は,両手法の判別結果は一致しました。ケース数が多すぎて誤差が出るのでしょうか。ご教示をお願いします。

     [このページのトップへ]


130. Re: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸  2003/06/11 (水) 15:23
拝見しました。

確かに結果は違いますね。
原因は,数量化II類で,ケースに与えられたサンプルスコアを使って群を判別するときに,ユークリッド距離の一番近い群に判別しているからです(判別分析ではマハラノビスの汎距離で判別しています)。

この二者の方法で違いがあるのは当たり前ですが,私がさぼっていました。(というか,今回のように両方の分析結果を比べるということを想定していませんでした)。

数量化II類のサンプルスコアとグループ変数を用いて判別分析のプログラムに通してやると,ダミー変数を使った判別分析と同じ結果になります(判別総括表では同じになりました。しかし,これが一般的なのかどうかはちょっと不明です)。

言い訳ですが,数量化II類はサンプルスコアを出すまではいいのですが,そこから先どうやって群を判別するかと言うところが甘いです。で,一番簡単な,群の重心までのユークリッド距離を使ったのが敗因でした。

     [このページのトップへ]


131. Re^2: 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる  2003/06/11 (水) 17:41
> 原因は,数量化II類で,ケースに与えられたサンプルスコアを使って群を判別するときに,ユークリッド距離の一番近い群に判別しているからです(判別分析ではマハラノビスの汎距離で判別しています)。

 御回答ありがとうございました。 まずは原因がわかってよかったです。 データあるいは解析方法に誤りがある可能性も考えていましたので。

> この二者の方法で違いがあるのは当たり前ですが,私がさぼっていました。(というか,今回のように両方の分析結果を比べるということを想定していませんでした)。

 両方の分析方法を比べた理由は,判別は判別分析で得られる分類関数で,どの説明変数が判別に良く効いているのかは数量化II類の偏相関係数で説明するように考えたためです(こういう使い方はいけないですか?)。 それで,両手法で計算してみると結果が異なったので,なぜと思ったのです。

> 言い訳ですが,数量化II類はサンプルスコアを出すまではいいのですが,そこから先どうやって群を判別するかと言うところが甘いです。で,一番簡単な,群の重心までのユークリッド距離を使ったのが敗因でした。

 判別の計算方法が異なるために結果が異なるということは,どちらも間違いではないということのようですが,では,どちらの方法が判別により適しているといえるのでしょうか。その判断は適用する対象によって異なるのでしょうか。

     [このページのトップへ]


132. Re^3: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸  2003/06/11 (水) 18:57
>  両方の分析方法を比べた理由は,判別は判別分析で得られる分類関数で,どの説明変数が判別に良く効いているのかは数量化II類の偏相関係数で説明するように考えたためです(こういう使い方はいけないですか?)。 それで,両手法で計算してみると結果が異なったので,なぜと思ったのです。

そのような使い方をしても,いっこうに差し支えありません。
数量化II類はサンプルスコアを出すまでであって,その後のケース判別はいろいろなやり方が考えられます。例えば,今の場合だと3群ですから2軸までの解が得られます。場合によっては第一軸だけを使ってもかなり判別できるかもしれません。また,群の数が多くて,多くの解が得られるときにも,全部の解を使ってケース判別するのは実際的には面倒ですので,最初のいくつかの解に基づいて判別することも有用なわけでしょう。

カテゴリースコアや,それに基づくアイテム変数の偏相関係数などは正当に利用できます。

>  判別の計算方法が異なるために結果が異なるということは,どちらも間違いではないということのようですが,では,どちらの方法が判別により適しているといえるのでしょうか。その判断は適用する対象によって異なるのでしょうか。

サンプルスコアを出すまでが数量化数量化II類とすれば,そのサンプルスコアを他の分析に使ってもいいわけです。そのような意味で,マハラノビスの汎距離を直接計算してもいいですし,私がやったように(ちょっと変に思うかもしれませんが)判別分析に掛けてもいいわけでしょう。
マハラノビスの汎距離を使うにしても,群ごとの分散・共分散行列がことなるとなれば,線形判別関数ではなくて二次の判別関数を使わなくてはならないでしょう。

     [このページのトップへ]


134. Re^4: 判別分析と数量化II類の判別結果が異なるのはなぜ あまがえる  2003/06/11 (水) 20:32
どうもありがとうございました。 大変助かりました。

     [このページのトップへ]


121. Re: 判別分析と数量化II類の判別結果が異なるのはなぜ 青木繁伸  2003/06/11 (水) 09:44
>  その結果,3群の判別結果がパーセンテージでは1ポイント以下ですが,微妙に異なっています。それで,どちらが正しいのかわからず,悩んでいます。任意に100ケースを取り出して計算した結果は,両手法の判別結果は一致しました。ケース数が多すぎて誤差が出るのでしょうか。

ケース数が多くて誤差のでるようなプログラムはクズです(^_^;)
実際にどのように分析されたかわからないので,原因がわかりませんとしかいいようがないのです。
ステップワイズ変数選択をしたということはないですね?
Excel は広いデータ範囲を指定するときに間違いが起こりやすいのですが,それもないのでしょうね。
判別率が違うということですが,人数(ケース)はどのくらい違うのですか?
判別結果の違うケースの判別値(マハラノビスの距離,P値),サンプルスコアは,他と比べてどんな風ですか?

どのように分析したかの状況とともにデータと分析結果をお送りいただければ検討することはできるかもしれません。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 025 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る