擬似負例を利用した、文脈に応じた同義語集合からの選択

(discourse sensitive paraphrasing)
関連研究
Context Sensitive Paraphrasing with a Global Unsupervised Classifier
前後Nグラムの表層・品詞・係り受けを用いたパターンに対応する弱学習器でつくった擬似正解でパラフレーズ分類器を訓練。
我々はさらに談話(文書内)文脈を考慮して言い換え可能性を厳密にする。

Learning to paraphrase: Learning to paraphrase: An unsupervised approach using multiple-sequence alignment

定式化
文と文脈が与えられたとき、同義語集合の中でもっとも文脈に合うものを選ぶ。

手法
同義語集合ごとに、文素性、文脈素性を使った分類器を構築
正例はコーパス中の文そのもの、
負例はその文をべつの同義語で置き換えたものを擬似負例とみなして使う。

考えられる問題:
真の同義語(どんな文脈でも言い換え可能)がfalse negativeであることにより訓練がうまくいかない。
動詞の場合、同義であってもフレームが同一とは限らないので、
この手法が許容する言い換えのなかには、構文的に棄却される言い換えが含まれる。