「統計学関連なんでもあり」の過去ログ---017

★ 偏差値，標準化得点 ★

　278　偏差値，標準化得点　　tanpopo　　2002/01/17 (木) 23:55
　　280　Re: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 00:01
　　　281　Re^2: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 10:02
　　　　282　Re^3: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 10:38
　　　　　286　Re^4: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 13:11
　　　　　　289　Re^5: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 14:05
　　　　　　　290　Re^6: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 14:16
　　　　　　　　292　Re^7: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 15:03
　　　　　　　　　294　Re^8: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 16:50
　　　　　　　　　　298　Re^9: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 18:52
　　　　　　　　　　　301　Re^10: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 19:13
　　　　　　　　　　　　305　Re^11: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 22:51

278.　偏差値，標準化得点　　tanpopo　　2002/01/17 (木) 23:55

偏差値，あるいは標準化得点について質問があります。
これらは，分布が正規分布していることを前提として標準化した得点だと思うのですが，最初から分布が非常にゆがんでおり，正規分布していないことがわかっている場合は，これらの数値には意味がないのでしょうか?

例えば，算数の点数の分布が最初から対数正規分布だとしたら，対数変換して標準化得点を出したほうがよいのでしょうか?それとも，通常の偏差値と同じようにすればいいのでしょうか?

　　　　　[このページのトップへ]

280.　Re: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 00:01

> 正規分布していないことがわかっている場合は，これらの数値には意味がないのでしょうか?

ないでしょう。
たとえば，ある受験生の偏差値（標準得点）が分かったとして，その受験生の成績順位について何か言及できるでしょうか?　できないでしょう?

> 例えば，算数の点数の分布が最初から対数正規分布だとしたら，対数変換して標準化得点を出したほうがよいのでしょうか?それとも，通常の偏差値と同じようにすればいいのでしょうか?

目的は何なのでしょうか?

T得点というのもありますが...（以下を参照）
http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/normdist/hensati.html

　　　　　[このページのトップへ]

281.　Re^2: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 10:02

早速のお返事ありがとうございます。HPも非常に参考になりました。

> 目的は何なのでしょうか?
>
> T得点というのもありますが...（以下を参照）

複数地域におけるAというサービスの充実度とBというサービスの充実度を偏差値に換算して比較したかったのですが，Aサービスは，正規分布に近いのですが，もう片方のBサービスは正規分布ではなく右に歪みのある分布でした。この場合，前者は通常の標準化得点にして，後者をT得点にして，比較してもよいでしょうか?

最終的に何をしたいのかというと，ある地域では，(1)Aサービスの得点が高く，Bサービスの得点が低い，(2)両者の得点が高い，(3)Aサービスの得点が低く，Bサービスの得点が高いなどを特徴づけることで，地域をサービス充実度別に分類をしたいと思っているのですが。

　　　　　[このページのトップへ]

282.　Re^3: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 10:38

> Aサービスは，正規分布に近いのですが，もう片方のBサービスは正規分布ではなく右に歪みのある分布でした。この場合，前者は通常の標準化得点にして，後者をT得点にして，比較してもよいでしょうか?

両方とも T 得点でいいのではないでしょうか。

　　　　　[このページのトップへ]

286.　Re^4: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 13:11

> 両方とも T 得点でいいのではないでしょうか。
ご回答ありがとうございます。早速，T得点を計算してみました。標準化得点よりも良好な感じがします。

ただ，一つだけ問題があって，分布に歪みがあるBサービスでは，もともと0の値のデータが多数（欠損値ではなく，ゼロのデータ）ありまして，それらに関しては，T得点は算出されませんよね。それらはどのように処理すればいいのでしょうか?サービスの充実度という観点からみると，ゼロのデータにも意味があると思うのですが。

　　　　　[このページのトップへ]

289.　Re^5: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 14:05

> ただ，一つだけ問題があって，分布に歪みがあるBサービスでは，もともと0の値のデータが多数（欠損値ではなく，ゼロのデータ）ありまして，それらに関しては，T得点は算出されませんよね。

なぜ算出されないと思ったのでしょうか。
http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/normdist/hensati.html
の，表の2にp=0のときの値が記載されていないからと思ったのかもしれませんが，ここのpは「累積確率」なんですけど...
ちなみに，度数分布表から累積確率を計算するときには，普通の累積確率ではなくて以下のようにする方がいいです。つまり，その階級以下の相対度数の合計とその階級の相対度数の半分だけを加える。

階級　　　相対度数　　累積確率
0～4　　2.4%　　1.2%　　=0+2.4/2
5～9　　5.6%　　5.2%　　=2.4+5.6/2
　:

　　　　　[このページのトップへ]

290.　Re^6: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 14:16

もしかして，たとえばあるサービスを受ける必要のない人が大部分で，そのようなひとはサービス費用が0で，残りの人がサービスを実際に受け，そのサービス費用がたとえば最小1000円，最大10万円で，対数正規分布みたいにゆがんでいるということですか。

そのような場合にはそもそも0とそれ以外のデータを同一の基準で比較することはできませんね。

　　　　　[このページのトップへ]

292.　Re^7: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 15:03

お返事ありがとうございます。0が算出されないと思ったのは，エクセルの関数で0のところは，#NUMとなって計算結果がでなかったからです。

Aというサービスの利用率と他のBというサービスの利用率を比較していますが，需要としては同程度あると仮定しています。その地域にサービスのプロバイダーが少ないもしくはない場合は，当然，利用率が低くなるので，0に近い値になります。（他の地域のプロバイダーを利用することもできますが，アクセスとしては悪いと思います）。この場合は，プロバイダーがいる地域にかぎって，利用率を得点化し比較すればよいのでしょうか?ただ，プロバイダーがいないために利用率が低いというのも情報だと思うのです。。あるいは，そもそも得点化して比較することに意味がないのでしょうか?

　　　　　[このページのトップへ]

294.　Re^8: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 16:50

> お返事ありがとうございます。0が算出されないと思ったのは，エクセルの関数で0のところは，#NUMとなって計算結果がでなかったからです。

問題はそういうことではなくて，norminv関数の第一引数に与えるのは，累積確率であって，「0の値をとるものがたくさんいるから」というのとはちがいます。0の値をとるものが13人にて，それが全体の28%であるならば，norminv 関数の第一引数は 0.28 なのであって，0ではないですよね。ちなみに，norminv の第一引数が0のときは，計算結果が出ないですが，値としてはマイナス無限大と定義できます。

> あるいは，そもそも得点化して比較することに意味がないのでしょうか?

つまり，同列に比較はできないということでしょう。

　　　　　[このページのトップへ]

298.　Re^9: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 18:52

0の値をとるものが13人にて，それが全体の28%であるならば，norminv 関数の第一引数は 0.28 なのであって，0ではないですよね。ちなみに，norminv の第一引数が0のときは，計算結果が出ないですが，値としてはマイナス無限大と定義できます。

直感的にゼロ点なのに，点数が出るのは不思議な感じがしていましたが，おっしゃる意図がわかりました。

> つまり，同列に比較はできないということでしょう。
何とか比較の枠組みができればと思っていたのですが。。。
あきらめるしかないのでしょうか。

偏差値や標準化得点の比較ができない場合は，主成分分析をして主成分得点を出すことも問題でしょうか?

　　　　　[このページのトップへ]

301.　Re^10: 偏差値，標準化得点　　青木繁伸　　2002/01/18 (金) 19:13

> 偏差値や標準化得点の比較ができない場合は，主成分分析をして主成分得点を出すことも問題でしょうか?

主成分分析をすれば0の問題がなくなるわけではないでしょう?

しかも，単変量ならまだしも，相関関係を考えるときに0の問題はもっと重大になるでしょう。

　　　　　[このページのトップへ]

305.　Re^11: 偏差値，標準化得点　　tanpopo　　2002/01/18 (金) 22:51

> 主成分分析をすれば0の問題がなくなるわけではないでしょう?
>
> しかも，単変量ならまだしも，相関関係を考えるときに0の問題はもっと重大になるでしょう。

やはり，そうですか。0のデータを除外するしかないですよね?

　　　　　[このページのトップへ]