No.01293 一変量の判別分析?  【葵】 2006/10/11(Wed) 11:22

はじめまして。判別分析について,調べてもどうしても今回のケースに対して有効なアドバイスが得られなかったので,こちらに書き込みをさせて頂きます。

特 定の症状パターンを有する患者を,Zという疾患と診断するための臨床指標を作成しようと試みています。症状は大きく分けてA系統とB系統があり,A系統の 症状の保有数とB系統の症状の保有数で診断する臨床指標です。2系統の数の組み合わせで最も判別正答率が高いパターンを判別分析を用いて検討する海外先行 研究あります。今回,先行研究と同様のやり方を想定して国内データで分析を試みてます。検討を行う数の組み合わせパターンは「A系統2以上かつB系統3以 上」をはじめ,4つが用意されてます。
このパターンを説明要因として(該当/非該当のダミー変数であるため量的変数とも質的変数とも解釈できると 考えてます。但し,各パターンは相反するため同時投入は不可能),判別分析を行いたいのですが,通常判別分析は2変量以上の場合に行う分析であると各種統 計解析の本には記されています。先行研究では詳細な手順が記されていませんが,「Discriminant function analysis」を用いたと言っており,結果としては4つパターンは全て有意に2群を判別しており,4つのパターンの敏感度・特異度を比較し,さらに PPP(Positive predictive power)とNPP(Negative predictive power)を有病率に応じてプロットすることで,最適な臨床指標の判断をしてます。
この場合,1変量(1パターンずつ投入するため・また各系統 の症状保有数以外の要因が投入されたという記載は先行研究にないため)の判別分析を行うことは適切なのでしょうか。それとも,「A系統2つ以上(ダミー変 数)」を1つの変量,「B系統3つ以上(ダミー変数)」を1つの変量として,2変量の判別分析を行う方が適切でしょうか。1変量では,本来「判別分析」を しなくとも,単純に「説明変数の該当者のうち疾患Z患者数/全疾患Z患者数」を集計すれば,判別正答率は算出できてしまうような気がしております(別途有 意検定が必要だと思いますが)。
現在のところ,SASを使用して1変量でも問題なく判別分析が行えて,結果も出てしまっているので,問題が無いようでればこのまま分析を終えようと思いますが,何かご助言がありましたら是非お願いいたします。

No.01294 Re: 一変量の判別分析?  【葵】 2006/10/11(Wed) 11:32

追記です。
ちなみに今回の分析では,疾患Zの患者約200ケース,統制群(似たような症状を保有しているが,疾患Zではないと診断されている患者)約160ケースを用いてます。

そ の他の問題点としては,そもそも疾患Zであるか否かというのも,現行の別の臨床指標を用いた診断結果に過ぎないという点があり(ある程度誤判別を含んでい る),今回の分析結果でも4つのパターンはいずれも2群を有意に判別していたものの,判別正答率は80%程度に留まってしまっているということがありま す。これは分析上の問題点ではありませんが,補足させて頂きます。

No.01295 Re: 一変量の判別分析?  【青木繁伸】 2006/10/11(Wed) 11:46

A系統i個以上,かつ,B系統j個以上なら疾患あり,そうでなければ疾患なし
というような1変量を考えているのでしょうか。そして,i, j を何通りか変えて判別分析をする。

1変量の判別分析も何の問題もなく行えます。
(重回帰分析で,独立変数が1個の場合が単回帰分析に相当するのと同じ。また,単回帰は重回帰の特別な場合であるが,同じ計算方法・プログラムで計算できます)

なお,そのような分析方法が望ましい・優れた分析方法であるかは別問題ではありますね。A系統,B系統の症状の保有数の間の相関関係を考えれば,2変数判別分析を行う方が良さそうにも思えます。
症状の保有数を量的な変数と考えて,A,B2系統の症状数という2変数を使う判別分析や,症状の保有数をダミー変数にして判別分析してみるとか。

また,A 系統,B系統と分けて症状の個数を使うというのでは,元のデータの持つ情報を有効に使っていないわけですから,それぞれの個々の症状の有り無しというデータで判別分析してみるとか。

もっとも,先行研究と比較するのなら,先行研究と同じ分析をしていればよいのでしょう。

No.01296 Re: 一変量の判別分析?  【葵】 2006/10/11(Wed) 12:42

早速のご返信感謝いたします。

>A系統i個以上,かつ,B系統j個以上なら疾患あり,そうでなければ疾患なし
>というような1変量を考えているのでしょうか。
>そして,i, j を何通りか変えて判別分析をする。

はい。まさしくその通りです。補足させて頂くと,A系統とB系統は,A系統は現在出現している症状,B系統は過去に出現した症状という扱いですので,分けて考える必要がございます。

望ましいかはさておき,1変量でも問題がないと分かり,安堵しております。ありがとうございます。本来は先行研究と同じ分析方法で結果を出せばよいのですが,アドバイス頂いた他の方法も試してみます。

実 は,前述した方法で2変数判別分析は既に試行してみたのですが,当然判別正答率は変わりませんが,Average R-Squareが1変量の時に比べて下がりました。ということは,2変数の分析方法がより良いやり方とは言えないでしょうか?単に説明変数の個数が増え たことにより判別結果がより不安定になっただけで,どちらがより良いとは言えないのでしょうか。またこのR-Squareは固有値にあたるのでしょうか?

今 回は,分散共分散行列の相等性が担保できなかったため,二次判別関数を用いてSASで分析しています。各統計ソフトの分析結果の表示に振り回される当たり 不勉強な証拠ですが,SASでは線形判別関数の分析でもSPSSのように「固有値」「正準相関係数」と親切な表示はでないため,結果の読み取りに苦労して います。お手数おかけしますが,疑問点について助言があればお願いいたします。

● 「統計学関連なんでもあり」の過去ログ--- 039 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る