★ 尺度水準と相関係数,クラスター分析 ★

8371. 尺度水準と相関係数,クラスター分析 kei 2005/11/17 (木) 05:04
└8372. Re: 尺度水準と相関係数,クラスター分析 青木繁伸 2005/11/17 (木) 09:43
 └8380. Re^2: 尺度水準と相関係数,クラスター分析 kei 2005/11/18 (金) 00:36


8371. 尺度水準と相関係数,クラスター分析 kei  2005/11/17 (木) 05:04
2点質問させてください。

1点目です。私はこれまで,相関係数(ピアソンの積率相関係数)は比率尺度ではないと思っていたのですが,これは正しいでしょうか?もし正しいならば,間隔尺度の要件は満たしているのでしょうか?
世間には相関係数の平均値(フィッシャーのZ変換や重み付けなどしない単純な算術平均)を報告したり他の分析に利用したりしている論文がたくさんあるのですが・・・。重み付けすべきかどうかという話以前に,そもそも平均していいのだろうかと頭を悩ませています。
基礎的な質問ですみません。

2点目です。クラスター分析を適用するにあたって必要となる距離行列(あるいは類似度行列)は間隔尺度(さらには比率尺度)の要件を満たしていなくてもよいのでしょうか?(metricityが理解できておりません。)
具体的な距離の定義方法もたくさんあるようで,ミンコフスキー距離やマハラノビス汎距離は「インプットとして間隔尺度データを必要とし,算出された値は比率尺度」だと考えているのですが,間違いないでしょうか?
また,相関係数行列をインプットにして(類似度行列とみなして)クラスター分析を行った研究があるようですが,これは数理的に誤りはないのでしょうか?(1点目とも関連するかと思いますが)

自分で勉強していてどうにも理論的な前提の部分が判然としないのでご助力いただければ幸いです。

     [このページのトップへ]


8372. Re: 尺度水準と相関係数,クラスター分析 青木繁伸  2005/11/17 (木) 09:43
> 相関係数(ピアソンの積率相関係数)は比率尺度ではないと思っていたのですが,これは正しいでしょうか?

比率尺度の定義から言うと,間隔尺度ということになるでしょう。
しかし,そのようなことを考える必要性(意味)はないでしょう。

> そもそも平均していいのだろうかと頭を悩ませています。

メタアナリシスでは,単純平均も重み付け平均も使われます。
統計量を演算して良いのかということになると,検定も推定もできませんね。

> クラスター分析を適用するにあたって必要となる距離行列(あるいは類似度行列)は間隔尺度(さらには比率尺度)の要件を満たしていなくてもよいのでしょうか?(metricityが理解できておりません。)

距 離行列を計算する元のデータが間隔尺度以上であれば問題はないでしょう。順位相関係数なら元のデータは順序尺度でよいし,元のデータが5件法などの順序尺 度でも近似的に間隔尺度であると仮定すればこれに基づいて距離行列を計算しても良いだろうし。そもそも,測定単位も次元も内容も異なる多変量データに基づ いて(たとえ変数ごとに正規化したとしても)距離を計算しても良いのだろうかとか言い始めればきりがない。

> また,相関係数行列をインプットにして(類似度行列とみなして)クラスター分析を行った研究があるようですが,これは数理的に誤りはないのでしょうか?(1点目とも関連するかと思いますが)

誤りは無いと考えたほうが,心は平安ですね。

     [このページのトップへ]


8380. Re^2: 尺度水準と相関係数,クラスター分析 kei  2005/11/18 (金) 00:36
ご回答ありがとうございます。

> 比率尺度の定義から言うと,間隔尺度ということになるでしょう。
> しかし,そのようなことを考える必要性(意味)はないでしょう。
どうして意味がないのでしょうか?
私が念頭に置いているのは,相関係数を生データとして使おうとしているような場合です。
例えば,各被験者毎に相関係数を求めて,それをもとに群間の比較をするとか。
このような場合,どんな分析が適用可能なのかは尺度水準によるのではないでしょうか?
相関係数は少なくとも順序尺度の要件は満たしていると思いますが,.20と.30の差は .80と.90の差や -.05と.05の差と同じだと言ってよいのでしょうか?
そもそも相関係数をデータにするというのがおかしいという意味でしょうか?(そういう研究はたまに見かけますが)

> メタアナリシスでは,単純平均も重み付け平均も使われます。

は い。私は,重み付け平均なり何なりの方法が,推定法として統計学的に正当化されているのかと考えていました(細かいことは知らないのですけど)。つまり, そこで行われる計算はいわゆる重み付け平均(フィッシャーの変換をして)なのですが,母相関係数の推定として正当化されているだけで,メタアナリシスで平 均が計算されているからと言って,相関係数をデータとして使ってよい(群の平均値を出して比較とかしてよい)という話にはならないのかも・・・と悩んでお ります。1要因乱塊法の分散分析の各セルのデータとして相関係数を入れてもよいのか,とか。

> 統計量を演算して良いのかということになると,検定も推定もできませんね。

平均は計算できなくても検定は推定はできる場合はあるのでは?順序尺度データとか。おっしゃっている意味を誤解していますでしょうか。

> そもそも,測定単位も次元も内容も異なる多変量データに基づいて(たとえ変数ごとに正規化したとしても)距離を計算しても良いのだろうかとか言い始めればきりがない。

その場合,距離を計算して良いかどうかは,各研究分野(統計を適用する分野)での理論的な正当化が必要なのでは?
多変量データを重み付けして,距離計算においていくつかの変量を重視するようなクラスター分析もありますよね?そういうのは各分野の理論で決まるものかと思っております。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 035 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る