No.21710 【R】高次元ベクトルの類似度計算のパフォーマンス向上  【赤羽】 2015/06/22(Mon) 21:57

青木先生,
赤羽と申します,ご教示をよろしくお願いいたします。

過日は,以下の投稿で,大変に良い勉強をさせていただきました。
改めて御礼を申し上げます。
 No. 21638 【R】行列のソート
 No. 21625 【R】行列のデータハンドリング
 No. 21618 【R】行和と列和がゼロになる,行と列の一括削除

今回も,データの性質から,パフォーマンス向上をしたいと思っている案件です。
青木先生,どうぞ,お力を貸してください。
よろしくお願いします。

−−−

d は,2値(1/0)の行ベクトルからなるデータフレームです。

行ベクトルの類似性測度として,Jaccard係数を用いて,以下のように計算しました。

d <- dist(d,method="binary")
d <- as.matrix(d)
d <- 1 - d;

write.csv(d, "Jaccard係数行列.csv")

行ベクトルの次元数が数千次元と高く,
また,行ベクトルの本数も数千と多いことから,計算時間が相当かかります。

計算を短縮化したいと考えていますが,どこに手をつけたらよいか分かりません。

ご教示をいただけましたら,大変に助かります。
どうぞ,よろしくお願いいたします。

No.21711 Re: 【R】高次元ベクトルの類似度計算のパフォーマンス向上  【青木繁伸】 2015/06/23(Tue) 09:08

R としては,write.csv のかわりに save を使うというような所以外,改善すべき所はないとおもいます。
処理速度が必要とあれば,C 言語なりでプログラムを書くという最終手段はあるでしょう。

No.21712 【御礼】 Re: 【R】高次元ベクトルの類似度計算のパフォーマンス向上  【赤羽】 2015/06/23(Tue) 21:20

青木先生,
赤羽と申します,
お忙しいところ,ご教示を頂戴し,誠にありがとうございました。
心から御礼を申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 047 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る