2007-08-06から1日間の記事一覧

未知語

lm

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。 簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、 訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。モデル1はABCという3つの単…

mecab/swig で形態素のオリジナルテキスト上での位置を得る

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…