2006-01-25から1日間の記事一覧

読み付与

そういえば、文字でなく形態素からはじめれば、読みはついてる。 形態素解析の誤りも入ってきてしまうけれど。

Shiho Nobesawa

http://iskig11.is.noda.tus.ac.jp/~shiho/paper.ja.html 音韻的類似に注目した言語モデリング? 大山 景詞, 延澤 志保, 太原 育夫, 音声認識システムにおける音韻的類似表現を考慮した言語モデルのタスク適応, 情報処理学会 第68回全国大会, no.5M-5, 工学…

Segmenting sentences into linky strings using d-bigram statistics

http://portal.acm.org/citation.cfm?id=993271 Step 2-gram を用いた相互情報量の増減により、単語境界を判定。

The Sparse Data Problem in Statistical Language Modeling and Unsupervised Word Segmentation (ResearchIndex)

http://citeseer.ist.psu.edu/489036.html 教師なし単語分割に関する、博士論文。 中国語の分割をやっている、Fuchun Peng さん。

torus solutions!

http://torus.jp/ リスト処理プログラミングとか、制約プログラミングとか。

符号化するなら、確率表も送らないと復元できない

麻生さんからの御指摘。 秋葉先生からも、一度言われていたが。辞書 0-gram、コーパス 1-gram の場合は、 辞書に確率表は不要で、 コーパスに対する確率表は、 辞書エントリに固定長の確率部を追加したと考えればよい。 この場合は、結局確率表を符号化しな…