★ クラスターの確かさ ★

4475. クラスターの確かさ カッパ 2004/10/01 (金) 16:43
├4477. Re: クラスターの確かさ 青木繁伸 2004/10/01 (金) 17:17
│└4478. Re^2: クラスターの確かさ カッパ 2004/10/01 (金) 17:34
└4476. Re: クラスターの確かさ 青木繁伸 2004/10/01 (金) 17:10


4475. クラスターの確かさ カッパ  2004/10/01 (金) 16:43
教えてください
質問は以下の2つです.
1. http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/clustan.htmlのVBAでクラスター解析を行いました.その解析の過程で,データを正規化する,しないを選択しますが,どういった場合に正規化したほうが良いのでしょうか,また正規化とはどのような処理を行っているのでしょうか.

2. ある魚種の県別の毎年の漁獲量変動を元にクラスター分析を行い,漁獲のある県をいくつかのグループに分類しました.しかしながら,この分類が統計的に正し いかどうか判別するのはどうすれば良いのでしょうか.たとえば,あるクラスターに含まれるA,B,C県と別のクラスターに含まれるD,E県の毎年の漁獲量 変動が,統計的な有意差を持つかどうかはどのように判断すればよいのでしょうか.

ご存知の方,よろしくお願いします.

     [このページのトップへ]


4477. Re: クラスターの確かさ 青木繁伸  2004/10/01 (金) 17:17
> 2.ある魚種の県別の毎年の漁獲量変動を元にクラスター分析を行い,漁獲のある県をいくつかのグループに分類しました.しかしながら,この分類が統計的に正しいかどうか判別するのはどうすれば良いのでしょうか.

それぞれのクラスターの各変数の平均値・標準偏差を計算するなどでしょう。

> あるクラスターに含まれるA,B,C県と別のクラスターに含まれるD,E県の毎年の漁獲量変動が,統計的な有意差を持つかどうかはどのように判断すればよいのでしょうか.

これについては難しい問題が存在します。

例えば九州の7県と四国の4県の漁獲高の平均値に有意差があるかなどという検定はありえない。つまり,それぞれの母集団をどのように考えるのか?標本データでなければ検定はできない。母数は大小比較だけである。。。。そんなことになるわけです。

     [このページのトップへ]


4478. Re^2: クラスターの確かさ カッパ  2004/10/01 (金) 17:34
青木先生
早速の返答で,ありがとうございます.
かなりすっきりしました.

カッパ

     [このページのトップへ]


4476. Re: クラスターの確かさ 青木繁伸  2004/10/01 (金) 17:10
> どういった場合に正規化したほうが良いのでしょうか
> また正規化とはどのような処理を行っているのでしょうか

分 析対象とする変数の測定単位が異なる場合,例えば,測定単位が cm のものと mm のものが混在するときに,その数値だけを使って距離を計算することに意味があるでしょうか。また,g で測定される変数と cm で測定される変数の数値の差を同一視してもよいでしょうかということです。
具体例で言うと,身長と体重が,Aさんは185cmと95kg,Bさん は176cmと86kgとして,AさんとBさんのユークリッドの二乗距離は (185-176)^2+(95-86)^2 = 9^2+9^2ですが,185−176 と 95-86 いずれも差は 9 という数値ですが,同じ意味を持つでしょうかと言うことです。

そこで,測定単位によって左右されないようにするためには,各変数を平均 0,分散 1 に標準化するのです。このように変換したデータは測定単位(次元)を持ちません。
標準化は,例えば先に挙げた身長と体重の場合なら,データ全体についての身長と体重の平均値と標準偏差を計算しておいて,
Aさんの身長の標準得点=(185-身長の平均値)/身長の標準偏差 の用にして求めます。このような換算を全部のデータについて行ったものが,正規化したデータということです。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 030 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る