★ 二値変数からなるデータのクラスタ-解析 ★

4741. 二値変数からなるデータのクラスタ-解析 YOK 2004/10/28 (木) 19:13
└4742. Re: 二値変数からなるデータのクラスタ-解析 青木繁伸 2004/10/28 (木) 19:22
 └4743. Re^2: 二値変数からなるデータのクラスタ-解析 YOK 2004/10/28 (木) 19:51
  └4744. Re^3: 二値変数からなるデータのクラスタ-解析 青木繁伸 2004/10/28 (木) 20:24
   └4753. Re^4: 二値変数からなるデータのクラスタ-解析 YOK 2004/10/29 (金) 09:45


4741. 二値変数からなるデータのクラスタ-解析 YOK  2004/10/28 (木) 19:13
はじめまして,私は現在,生物を研究をしている者で統計学は初心者です。以下の件についてのアドバイスをいただけますでしょうか。
各試験個体について調査項目の全てが+か-で表すデータを取り扱っています。例えば,(項目1,項目2,項目3)に関して個体X1の結果は(+,+,+),X2は(+,+,-),X3は(+,-,+)という具合です。

1.項目全てが二値変数からなる今回のようなデータはクラスター分析ができるでしょうか。
2.クラスター分析ができる場合どのような手法を取ればいいのでしょうか。

以上で分かりにくい点があれば,すぐに説明させて頂きます。
教えて頂ければ幸いです。

     [このページのトップへ]


4742. Re: 二値変数からなるデータのクラスタ-解析 青木繁伸  2004/10/28 (木) 19:22
この掲示板には何回も姿を変えて出てくる質問です。
二値変数は,データの水準としては最も低い名義尺度であると同時に間隔尺度の性質も持ちます。従って,平均値を計算することも,相関を計算することも問題なくできます。よって,クラスター分析も可能です。

また,クラスター分析のほかにも,数量化III類や主成分分析(因子分析)によっても,ケースを分類することは可能でしょう。

     [このページのトップへ]


4743. Re^2: 二値変数からなるデータのクラスタ-解析 YOK  2004/10/28 (木) 19:51
早速のご返答ありがとうございます。
よろしければ,下記の点も教えて頂けますでしょうか。

個体X1の結果は(+,+,+),X2は(+,+,-),X3は(+,-,+)という場合,クラスター分析をするとX1はまずX2とクラスターを形成します。
X1とX2間の距離とX1とX3間の距離が同じであるのに,なぜX1はX2と始めにクラスター形成するのでしょうか。

     [このページのトップへ]


4744. Re^3: 二値変数からなるデータのクラスタ-解析 青木繁伸  2004/10/28 (木) 20:24
この問題は,アルゴリズムのプログラム化に依存するわけですね。

同じ距離にあるなら「同じ」として扱う必要があ りますが,「距離の小さい方から探す。見つかったら,対応する処理をする」というアルゴリズムに従うと,距離が同じものは必然的に見逃されるということに なります。特に二値データの場合には同値が起きやすいので,そう言う意味ではもっときめ細かいアルゴリズムに従う必要があるのでしょう。
そのような厳密なアルゴリズムに従った場合と,簡略なアルゴリズムに従った場合で結果が大きく違うと言うことならば大問題になるのでしょうが。

     [このページのトップへ]


4753. Re^4: 二値変数からなるデータのクラスタ-解析 YOK  2004/10/29 (金) 09:45
お返事ありがとうございます。

調査項目に優先順位をつけることで解決できると考えました。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 031 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る