prfr

CRFでない最大エントロピー法をgibbs sampling で解く

Finkel+2005, Incorporating non-local information into Information Extraction Systems by Gibbs sampling最大エントロピーモデル ・素性値の経験分布での期待値とモデルによる期待値が一致するという制約 ・制約から対数線形モデルを導出 ・尤度関数の線…

英語の単語を原形に戻す WordNet-based lemmatizer

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾…

wordnet フォーマット

data.* は 1行が 1 synset に対応する同義語辞書ファイル。 たとえばこの行 08499057 15 n 02 atmosphere 0 air 1 007 @ 08630039 n 0000 #p 09270894 n 0000 + 02831736 a 0101 + 02831736 a 0102 ~ 08502317 n 0000 %p 08555569 n 0000 %p 08588916 n 0000…

擬似負例を利用した、文脈に応じた同義語集合からの選択

(discourse sensitive paraphrasing) 関連研究 Context Sensitive Paraphrasing with a Global Unsupervised Classifier 前後Nグラムの表層・品詞・係り受けを用いたパターンに対応する弱学習器でつくった擬似正解でパラフレーズ分類器を訓練。 我々はさらに…

文体隠れクラスをもつ談話依存言い換え選択

言い換え集合に対する native/non-native 分類を拡張し、 隠れクラス化することにより、文脈にあったクラスを選択してよりよい言い換えを選択する。 - (2008-12-30T12:33:43+0900) けっきょくのところユーザーが望んでいる文体の集合は事前に定義することが…