unsupervised な大域言語モデルと近接言語モデルの融合

大域言語モデル:どのような語彙が使われているか。ユニグラム。
近接言語モデル:どのような単語の連続が許されるか。バイグラム以上。

言語モデルの適応は、厳密には、トピックに対してなされるべき。
トピックは、入力データを知る前には分からない。
音声認識の場合で考えれば、対話が進むにつれ、トピックは変化する可能性がある。

トピック同定は、bag-of-words としての性質からなされる。
よく使われるフレーズを単語としてつなげておくことにより、
トピック同定が改善される。

単語連結は、同じトピックのデータ内での、単語出現頻度を使って推定される
パープレキシティを最小化するように決める。

トピック同定と単語連結を繰り返すことにより、大域的傾向で切替えられる混合近接言語モデルが作られる。

単語境界も、トピック境界も、
その都度決め打ちするか、
分布として保持するか。