No.23016 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数  【明石】 2021/01/23(Sat) 16:35

青木先生 様;

お忙しいところを失礼いたします,明石と申します。

毎々,ご丁寧なご教示をいただき,誠にありがとうございます。
改めて御礼を申し上げます。
ありがとうございます。

初歩的な質問で大変に恐縮していますが,ご教示をいただきたいと思います。
何卒どうぞよろしくお願いいたします。

---------------------------------------------------------------

使うデータは,以下です。
連続変数とカテゴリカル変数が混在しています。
> str(dat)
'data.frame': 1000 obs. of 9 variables:
$ 性別 : Factor w/ 2 levels "女性","男性": 1 2 2 1 1 2 1 1 1 1 ...
$ 身長 : num 160 174 163 155 150 ...
$ 体重 : num 55.2 59.9 60.3 54.2 45.7 60.8 42.2 34.8 37.7 55.3 ...
$ 血圧 : int 96 124 115 104 143 132 105 123 118 123 ...
$ 歩行数区分 : Factor w/ 6 levels "1.0〜1999","2.2000〜3999",..: 1 6 4 6 2 2 4 2 4 6 ...
$ コレステロール: Factor w/ 5 levels "1.正常","2.注意",..: 2 2 1 1 1 1 1 1 1 1 ...
$ 現在の喫煙習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 1 2 ...
$ 現在の飲酒習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 1 2 2 2 ...
$ 糖尿病 : Factor w/ 2 levels "no","yes": 1 2 1 1 2 2 1 1 1 1 ...
(1)
連続変数とカテゴリカル変数が混在しています。

尺度水準は異なりますが,このまま相関係数は算出できるのでしょうか?

例えば,
連続変数どうしは,ピアソンの相関係数,
カテゴリカル変数どうしは,クラーメルの連関係数,
連続変数〜カテゴリカル変数は,相関比,
などのように,尺度水準の組み合わせで個別に計算はできますが,
全体として,得られた相関係数の大きさを比較することができなくなるように思えますので,
この方法は使えないと考えました。

(2)
カテゴリカル変数をダミー変数化(0/1の2値化)して,水準ごとに横展開します。
その結果,上記データは連続変数と離散変数(0/1)になります。

データの型は,連続変数(numeric),離散変数(integer)であり,
ピアソンの相関係数で計算はできますが,
連続変数とダミー変数が混在している場合に,計算してもよいのでしょうか。

もし,ピアソンの相関係数で計算できない場合には,どのような計算をすればよいでしょうか?

初歩的な質問で申し訳ございません。
ご教示をいただけましたら大変に助かります。

失礼いたします。
//

No.23017 Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数  【aoki】 2021/01/23(Sat) 22:06

挙げられているデータセットは,カテゴリーデータは全て順序が付いているので(二値データ,性別も含めて。コレス テロールはFactor w/ 5 levels とありますが 1,2 しか見えていない残りは順序有り?)間隔尺度と共存できる,順位相関係数を使えば問題ないでしょう。スピアマンでもケンドールでもお好きな方。

なお,2値データは間隔尺度でもありますので,2値データ同士のファイ相関係数はピアソンの積率相関係数の絶対値を取ったものと一致します。
また,2値データと連続変数の点双列相関係数も同じ考え方で,ピアソンの積率相関係数の絶対値をとったものと同じです。なので,二値データと間隔尺度変数だけの場合はピアソンの積率相関係数でいいですね。
φ係数と点双列相関係数の符号は,結果の解釈の時点で考慮すればよいのでデータ分析段階では考慮しないで良いです。

No. 22325 からのスレッドも読んでみてください。

No.23018 御礼(Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数)  【明石】 2021/01/24(Sun) 09:22

青木先生 様;

お忙しいところを失礼いたします,明石と申します。

毎々,ご丁寧なご教示をいただき,誠にありがとうございます。
今回も有り難いご教示をいただきました。

まさに,知りたいことをズバリと教えていただきました。

青木先生にお聞きする前に,私の調べられる範囲で調べたのですが,分かりませんでした。

ご紹介くださいました過去の投稿を,これから調べて追試いたします。

---------------------------

余談ですが,私は,糖尿病ですので,このデータを何とか分析したいと思っています。

機械学習のxgboost,LightGBM,ranger,深層学習などなど,色々とやってみましたが,
二値分類できても,糖尿病である私には,結果に納得感がありません。

ガラガラポンではいけないと思い,
データの相関関係からきちんと確認したいと思いました。
これが,そもそもの動機です。

御礼を申し上げます。
ありがとうございました。
//

● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る