No.08594 手法の選択について  【真鍋】 2008/12/10(Wed) 19:00

はじめまして。
手法の選択について,アドバイスをいただければと思います。

自然言語処理で,言語Aと言語Bの対訳データがあります。
言語Aの各文章を言語Bに機械翻訳して,対訳データ中の言語Bのデータと比較をすると,当然ある程度の違いが出てきます。この違いは,編集距離というもので数値化できます。編集距離は,比較文の長いほうの文字数より大きくなることはありません。

ここで,言語Aの各文章を形態素(単語)に分解して,それぞれの単語が上記の編集距離に及ぼす影響を考えます。考え方としては,特定の単語が出てきた時に翻訳が悪くなるという現象があるのではないかというものです。

このとき,各単語の影響を調べるのにもっともいい方法はなんでしょうか? 異なり単語数は14000ほど,文数は16000ほどです。

私の考えは次のようなものです。
一 度しか出てこない単語も相当数あるため,全単語について処理をするより,出現回数が一定以上あるものについて,それぞれの単語が出現したかどうかと編集距 離を正規化したものとの間で相関を求めるのがいいのではないか。その場合,どうやって編集距離を正規化すればいいのだろうか…。

統計学の素養がないため,まったくピント外れのことを書いているかもしれませんが,アドバイスがいただければと思います。
(数日間ネットから離れるため返信はできません)

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る