No.22326 Re: 二値データと連続変数の相関関係について 【課長】 2017/04/22(Sat) 10:14
仰るとおり,1,0に意味は無いかと思います。計算上便利なだけでしょう。しかし,0,1を取るデータの数は意味 があるのではないでしょうか?実際の計算では0や1を取る値の数,そして連続データの平均などの値を使うと思います。点双列相関係数やスピアマンの相関係 数でいいんじゃないでしょうか?ちょっと自身がありませんので他の方の回答を期待します。
No.22327 Re: 二値データと連続変数の相関関係について 【青木繁伸】 2017/04/22(Sat) 21:14
正しい方法です。
名前もあります。
点双列相関係数といいます。
しかし,それは,簡便化した計算方法を用いるものとして,「特別に?」定義づけられたものに過ぎず,実体は計算方法も含め「ピアソンの積率相関係数」にほかなりません。
「名 義尺度を数値データとみて計算する」のは,うわべだけ見れば,「そんな馬鹿なことないよなあ」と思うかも知れませんが,名義尺度も二値データの場合は特別 です。0/1 に限らず 1/2 であろうと50/1000 であろうと,標準化してしまえば同じ(標準化というのが,文字通り標準化ですから)。
相関係数を計算するには,間隔尺度,比尺度であること,というのがよく知られていて,名義尺度なんて間隔尺度でも比尺度でもないので,相関係数なんか計算できないよなあと思われるのでしょう。
しかし,間隔尺度の定義を考えてください。「データの間隔に意味がある」ですね。1と2の間隔と16と17の間隔は同じということです。
特 別な場合として,データが2通りの値しか取らない場合,「1と2の間隔」しかないわけで,「じゃあ,だめだろ」といわれるかもしれないけど,「間隔尺度の 取りうる値の個数」なんて,どこでも規定されているわけではなく,数学的には「間隔尺度の取りうる値の個数」なんて関係ないのです。二つしか取りうる値が ないものも,間隔尺度なんですよ。
蛇足ですが,二値データは,簡単な一次変換でダミー変数になります。
なお,二値データを連続変数と同列に見て統計解析をするのは当たり前のように行われています。ダミー変数をつかっての重回帰分析などは広く行われています。
なお,k ≧ 3値データの場合も k-1 個のダミー変数に展開されて重回帰分析を初めとして多変量回帰に広く使われています。
二値データを数値化するというのには,明らかに意味があるのです。つまり,2つのカテゴリーがあれば,その二つは何らかの意味で大小関係があるのです。「何らかの意味」というのは,そのデータとそのデータを用いた分析の土俵上で決まるものですけど。
黒/白,男/女,高学歴/そうではない, 低収入/高収入,外国人/日本人,ある薬を投与された/されていない/,生産年齢人口/老年人口 ...
倫理的な問題も関与する場合もあるけど,なんだかんだいっても「少なくとも両者には何らかの意味で違いがある」ということは事実なんですから。
「統計学関連なんでもあり」の「全文検索」で「点双列相関係数」を検索すると,いろいろ興味深い記事を読めると思います。
No.22328 Re: 二値データと連続変数の相関関係について 【成瀬】 2017/04/23(Sun) 12:46
課長様,青木先生
コメンどうもありがとうございました。
論文を読んでいてもニ値データと連続変数の相関解析の結果を良く目にしていたので,
解析方法に疑問を頂いていました。
2つしか取りうる値がないものも間隔尺度という考えは自分には全くなかったので,
学習になりました。
「点双列相関係数」で検索してさらに勉強させて頂きます。
ありがとうございました。
No.22330 Re: 二値データと連続変数の相関関係について 【課長】 2017/04/23(Sun) 15:33
>成瀬様
中途半端な回答で申し訳ありません。
>青木先生
勉強になりました。今後とも宜しくお願い致します。
● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る