2005-12-03から1日間の記事一覧

森信介, 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)

http://ci.nii.ac.jp/cinii/servlet/quotdisp?uselang=jp&docid=20006641851&dispflg=2 著者名 : 森,信介 : MORI,Shinsuke 所属 : 日本アイ・ビー・エム株式会社東京基礎研究所 : IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. 論文名 : …

森 信介, 宅間 大介, 生コーパスからの単語 N-gram 確率の推定

http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/research.html 2004年 1. 生コーパスからの単語 N-gram 確率の推定(311[KB], PS) * 森 信介, 宅間 大介 * 情報処理学会自然言語処理研究会 (2004)

特別実験報告会予稿(言語モデル最適化バージョン2)

表題:言語モデル性能指標を基準にした文分割 / Sentence Segmention based on Language Model Performance 概要:自然言語処理において、統計的言語モデルは音声認識、機械翻訳など幅広い応用に用いられている基礎的手法のひとつである。統計的言語モデルは…

符号化のときの確率推定にも汎化を考慮する

2-gram エントロピー最小化の方法は、1-gram よりも少ない連結しかしない。 2-gram 確率を使うため、スパースネスが大きいのが原因だと思う。 データを増やすか、確率推定にスムージングを施す必要がある。

辞書の符号化を文字1-gramの符号化にする

辞書の符号化はいまのところ 0-gram(等しい長さ)の符号化。 これは効率の悪い符号化なので、より効率の良い符号化にすると、 辞書のエントリの増減による、全体の符号長の増減への影響が小さくなる。 とりあえず、辞書内文字単位 1-gram による符号化を予…