いまどこ?

言語モデルの性能向上という枠組で考えると……

単語単位の統計的言語モデルというものがある

よい統計的言語モデルは、「ただしい文」に高い確率を割り当て「ただしくない文」に低い確率を割り当てる

単語の単位のとりかたにより、統計的言語モデルの性能は変わりうる
(よく使われるフレーズは1単語の方がよい
P(w_{i-1}=わかり|w_{i-2}=?) x |P(w_i=やすい| w_{i-1}=わかり) より、
P(w_i=わかりやすい|w_{i-1}=?) の方が確率が高い)

現在つかわれている単語の単位は、言語学的単位がベース
(事前に与えられる辞書を使う方法も、タグづけテキストからの学習の方法も)
言語モデルの性能を最大にする保証はない

言語モデルの性能指標:クロスエントロピー[2005-11-13-1]が安定して低いほどよい
(ngramモデルでは、ngram確率の連積が高いことに相当)

とりあえず、1gramでのクロスエントロピーを(closedで)最適化しよう

全域最適は困難なので、単語辞書=文字辞書の状態から、局所最適な連結を繰り返す探索をしよう
(探索が greedy)
↓ 中間報告会の時点で、ここ
局所最適&辞書(と頻度情報)の更新を高速に見つけられるようにしよう

更新を局所的に済ませるためには、suffix tree が都合がいい
(枝の付け替えとか、部分木の消去などを行うことに相当[2005-11-01-1])

ただし、suffix tree での局所的な更新は可能だが、わりと無駄が大きい

suffix tree の表現のひとつ、suffix vector がこのような目的に適した表現のようだ
↓ いまこのへん
suffix vector で表現された辞書+頻度情報を、連結に関して更新する方法を導く
(問題は、本体文字列を連結リストで表現することが可能かどうか…)

局所最適が高速に求められるようになったので、N-best 探索 も視野に入れられる

1-gram 確率にもとづくclosedなエントロピーに関しては、実用上最適の単語単位が得られる

2-gram 以上の確率にもとづくエントロピーに関しては、また別の話
でも 1-gram で最適なら、2-gram でもある程度よくなるのでは?