> str(dat)(1)
'data.frame': 1000 obs. of 9 variables:
$ 性別 : Factor w/ 2 levels "女性","男性": 1 2 2 1 1 2 1 1 1 1 ...
$ 身長 : num 160 174 163 155 150 ...
$ 体重 : num 55.2 59.9 60.3 54.2 45.7 60.8 42.2 34.8 37.7 55.3 ...
$ 血圧 : int 96 124 115 104 143 132 105 123 118 123 ...
$ 歩行数区分 : Factor w/ 6 levels "1.0〜1999","2.2000〜3999",..: 1 6 4 6 2 2 4 2 4 6 ...
$ コレステロール: Factor w/ 5 levels "1.正常","2.注意",..: 2 2 1 1 1 1 1 1 1 1 ...
$ 現在の喫煙習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 1 2 ...
$ 現在の飲酒習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 1 2 2 2 ...
$ 糖尿病 : Factor w/ 2 levels "no","yes": 1 2 1 1 2 2 1 1 1 1 ...
No.23017 Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数 【aoki】 2021/01/23(Sat) 22:06
挙げられているデータセットは,カテゴリーデータは全て順序が付いているので(二値データ,性別も含めて。コレス テロールはFactor w/ 5 levels とありますが 1,2 しか見えていない残りは順序有り?)間隔尺度と共存できる,順位相関係数を使えば問題ないでしょう。スピアマンでもケンドールでもお好きな方。
なお,2値データは間隔尺度でもありますので,2値データ同士のファイ相関係数はピアソンの積率相関係数の絶対値を取ったものと一致します。
また,2値データと連続変数の点双列相関係数も同じ考え方で,ピアソンの積率相関係数の絶対値をとったものと同じです。なので,二値データと間隔尺度変数だけの場合はピアソンの積率相関係数でいいですね。
φ係数と点双列相関係数の符号は,結果の解釈の時点で考慮すればよいのでデータ分析段階では考慮しないで良いです。
No. 22325 からのスレッドも読んでみてください。
No.23018 御礼(Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数) 【明石】 2021/01/24(Sun) 09:22
青木先生 様;
お忙しいところを失礼いたします,明石と申します。
毎々,ご丁寧なご教示をいただき,誠にありがとうございます。
今回も有り難いご教示をいただきました。
まさに,知りたいことをズバリと教えていただきました。
青木先生にお聞きする前に,私の調べられる範囲で調べたのですが,分かりませんでした。
ご紹介くださいました過去の投稿を,これから調べて追試いたします。
---------------------------
余談ですが,私は,糖尿病ですので,このデータを何とか分析したいと思っています。
機械学習のxgboost,LightGBM,ranger,深層学習などなど,色々とやってみましたが,
二値分類できても,糖尿病である私には,結果に納得感がありません。
ガラガラポンではいけないと思い,
データの相関関係からきちんと確認したいと思いました。
これが,そもそもの動機です。
御礼を申し上げます。
ありがとうございました。
//
● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る