No.07079 これは相関係数として正しいでしょうか  【いなお】 2008/07/18(Fri) 18:57

例えば高校のある科目の成績と授業参加度(講義欠席数)の間に相関があるかを考えるとき,
受講者が仮に100人だとして,成績は60〜100の間に広がり,欠席数は0〜42/年の間であったと
します。

1)単純に相関をとる
2)成績は60〜100だが,順位でみると1〜100になるので,この順位と欠席数の相関をとる
3)成績だけを順位にせずに欠席も順位をふり,その間で相関をとる
4)順位についてそのままで相関をとらないで,区間に分け,区間毎に成績順位の平均と欠席順位の
 平均を求め,その平均値を用いて相関係数を計算する(区間は恣意的:例えば,欠席0のみ,
 1〜5,6〜10,11〜20,21以上)

1)以外(3もスピアマンとして見ればいいかもしれませんが)にはそれぞれ問題がかなりあると
 思うのですが,こういう処理を数学の先生がなさっているときに,どうしたらまずい点を理解して
 もらえるでしょうか?説得力のある論拠・例が欲しいのです。それとも全部正しいでしょうか?

 順序尺度である順位を平均することや,また,その平均での相関という点を明確にマズイとする
 ためには何が言われなければならないでしょうか?相関係数というものはデータがあるバラツキ
 を持っている中で計算されるのであって,それを区間平均値のようにバラツキをゼロにして
 しまった数値は数には違いありませんが,もともとのデータを反映していないという点では
 別個のデータであるというふうに私は考えてしまうのですが。

 という,困った問題で悩んでいるのですが・・・どなたかお知恵を授けていただけると幸甚です。

No.07087 Re: これは相関係数として正しいでしょうか  【青木繁伸】 2008/07/18(Fri) 21:13

あなたは「単純に相関を取る」ことを推奨したいと言うことでしょうか?つまり,ピアソンの積率相関係数ですね。
3) はスピアマンの順位相関係数と同じになるのでしょうね。
2) は中途半端で,わけわからんです。
4) は情報を無駄にしていますね。

まあ,変な相関係数の定義(2 とか 4)は別として,ピアソンの積率相関係数とスピアマンの順位相関係数にはそれぞれ長所と短所があるので,データの性質と相関係数を求める目的によって,いずれを取るかを決めればよいと思います。
多くの場合にはそんなに違いはないと思いますが。
散布図を描いて,両方の相関係数を出して,それらを総合してどちらがより妥当か結論づければ宜しいかと(場合によっては,どちらがよいということではなく,それぞれの数値がそれぞれの意味を持っているということになるかも知れませんしね)

No.07091 Re: これは相関係数として正しいでしょうか  【いなお】 2008/07/19(Sat) 00:33

お返事ありがとうございます。1)と3)はそのとおりだと思います。
問題は4)でして,4)は情報を無駄にしているだけなのでしょうか?

区間毎の標本数は1〜30と大きくバラついています。ある区間ではもともと30の標本数があったのが1個の平均値になり,別の区間ではもともと1個の標本しかなかったので元から1個の値(平均値?)です。
全く重みの違う値が5区間で5x2組できました。それで相関を計算して相関係数が1近くなったからといって,もともとのデータにおいても相関があったと結論できるものなのでしょうか?
もともとの標本数は80〜100と多いのですが,それが5になっています。

また,区間A,B,C,D,E,,の各区間の範囲の大きさも違うし標本数も違うのに,平均をとってたった一個の平均値にして,それを使って相関を計算してしまうことに問題はないのでしょうか?

ち なみに区間わけして各区間平均値1個にしてしまう前に,元々のデータで計算した相関係数は0.3程度でしたが,ある1区間では30もある標本を平均してそ の平均値1個だけにし,他の区間ではもともと1個の値で,それらの平均値を同質に扱って相関をとると,1近い相関係数になりました。

区間分けをいろいろ変えれば,いくらでも(というのは大袈裟かもしれませんが)より高い相関係数値を得られる確率が増えてくるのではないでしょうか?
そもそも分散が極端に減っているわけですから。

そういうやり方は統計学的に正しいのでしょうか?大学時代に習った統計学では,そういうやり方は統計で嘘をつく方法の一つだと教わったと思うのですが,いかがでしょうか。

No.07092 Re: これは相関係数として正しいでしょうか  【シグマ】 2008/07/19(Sat) 01:17

数量であっても名義変数,順序変数,間隔変数,比例変数があり,順位は順序尺度で加減算が基本的に意味を持ちませんよね。

それはおくとしても,30標本->1平均値,1標本ー>1平均値を同等に扱うのは奇妙な感じがします。

No.07098 Re: これは相関係数として正しいでしょうか  【青木繁伸】 2008/07/19(Sat) 15:37

> 4)は情報を無駄にしているだけなのでしょうか?

情報を捨てるという無駄をし,その無駄は不正な相関係数を生み出しているのです。

No.07110 Re: これは相関係数として正しいでしょうか  【いなお】 2008/07/20(Sun) 00:05

どのような不正だと言えばいいのでしょうか?
統計のどういう原則に違反しているのかがきちんと言えれば私としては助かるのですが。

No.07115 Re: これは相関係数として正しいでしょうか  【通りすがり】 2008/07/20(Sun) 02:42

>ある科目の成績
とは,試験の点数でしょうか? 3学期あって,中間と期末とあれば,600満点のりっぱなデータをお持ちな訳ですね。平均と分散を計算するだけで,いろんな考察(解釈)が可能になります。
平均が高くて,分散が小さい場合:教育が成功している。もしくは,試験の問題がやさしすぎ。
平均が低くて,分散が小さい場合:教育に失敗している。
平均はそこそこで,分散が大きい:成績は授業の内容より,個人の資質とかの他の要因の影響が大きい。
これは,教育に携わったことのない私の思いつきの考えなので,まともな人がやればもっとまともなものができると思われます。
い なおさんは,これを順序尺度に変換して処理しようとされていますが,これで平均と分散が意味のないものになってしまいます。青木先生の「情報を捨てる行 為」と言うのは,そう言う意味と思われます。単に相関係数を求めるだけとは言いながら,いなおさんが投稿されたのは,ご自身で何か引っかかるものをお感じ になったからと思いますが。。。納得がいかなければ,両方やってみれば良いです。数字は機械が出しますが,解釈をつけるのは人間(あなた)です。
>統計のどういう原則に違反しているのか
私は統計学の学者ではないのですが,(少なくてもそれを名乗って俸給を得たことはない)
で,尺度を必要もなくおとしたりされると,その先の展開は怪しみながら読むかもね。統計学の原則というより,自然科学の原則ではないでしょか。

No.07117 Re: これは相関係数として正しいでしょうか  【ひの】 2008/07/20(Sun) 06:19


>いなおさんは,これを順序尺度に変換して処理しようとされていますが,これで平均と分散が意味のないものになってしまいます。

 試験の成績(得点)は順序尺度ですから「順序尺度に変換」ではなくて「順位に変換」しようとしているだけです。

No.07119 Re: これは相関係数として正しいでしょうか  【青木繁伸】 2008/07/20(Sun) 07:02

区間内のデータの平均を取るということで情報を捨てていること,相関係数を求めるときに重み付けをしていない(これも情報を捨てることになる)こと。

No.07128 Re: これは相関係数として正しいでしょうか  【いなお】 2008/07/21(Mon) 00:03

いろいろとご意見ありがとうございます。書き方が不十分で誤解を与えたかもしれません。これは私がやっていることではなくて,大学で統計をおしえていたこともある数学の先生がやっていることなのです。
私 は,順序尺度の加減乗除も変だし,長さが一定でない区間切りしている点にもひっかかりますし,まして,区間毎の平均を出して,その平均値を使って相関を出 すということもおかしいと言っているのです。青木先生が言われるように重み付けすればまだしも(重み付けすれば,区間平均をとる意味はほぼなくなります ね),それもしないで。
そもそも,この問題,教育評価の一環で,その数学の先生が「欠席数が少なければ優秀」ということを主張したくて始めたフシ ギ統計(というか,タメにする統計とでも言うべきでしょうか)なのです。散布図を見れば,そう言いきれるようなデータではなく,欠席が多くても優秀なのも いれば,毎回出席でも欠点スレスレもいる。成績を出欠要因だけで考えるなんてできないと思うのですが,それを出欠の問題だけにしてしまいたいらしいので す。
青木先生がおっしゃる「情報を捨てている」というのは無駄をしているというだけでなく,「捨ててはいけない」という意味もあるのでしょうか? 私には,上のような相関係数の出し方がおかしいと思えるのですが,その問題点を明確な統計学用語で表現すれば,数学の先生にも理解してもらえるかなと思 い,ここでお尋ねしてみたというわけです。変数(あるいは尺度)の質的な違いはもちろん統計以前の科学的な問題であるとも思え,純系数学者には合わない問 題なのかもしれませんが,しかし,こうした点は統計学のまともな教科書なら最初に出てくるテーマなので,教科書レベルでなく,もう少ししっかりした言い表 し方があるのではないかと。感覚的に「おかしいと思う,それは〜」とダラダラ言ってもしょうがないので,「それは統計学的に〜の点で誤っている」というよ うな表現が知りたいわけです。
しかし,また,その一方で,成績(0〜100)というような数量がどの尺度レベルなのかということには何だか不透明 な部分もあるような気がします。もともと順序尺度なのだというご意見には「おお,そうだった!」と思うのですが,それでも,それにも順位がつくので(しか も,ただの変換ではないですね),成績はどのような統計量なのだろうかというところに来てしまったか・・・と感じ始めています。
いずれにせよ,程度の低い問題で申し訳ありません。

● 「統計学関連なんでもあり」の過去ログ--- 041 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る