factored language models

Traditional SLMs are based on N-gram language models (NGLMs),
which essentially treat each word occurrence as an probabilistic event.

Naive NGLMs are suffered with data sparseness.
One examples was ...

To avoid the data sparseness problem, ...

  • smoothing
  • back-off
  • interpolation with class model

J. A. Bilmes and K. Kirchhoff(2003),
Factored language models and generalized parallel backoff,
In HLT/NAACL-2003

単語を素性の束で表し、字面ベースのN-gramモデルを置き換える。
バックオフを一般化した形で再定義している。
通常のN-gramは、N個の縮退したモデルだけをもつが、
FLMは、単語当たり素性数F 文脈長Nのもとで、combination(F,N)個の縮退したモデルを想定する。 # ←理解が怪しい
可能なバックオフの経路の数がexponentialなため、
汎用的なグラフィカルモデルの構造推定(Graphical models toolkit; GMTK)を用いて、
有効な経路を求める。
より多くのバックオフモデルが得られ、スパースネスに強いのが利点。
最近、フレーズベース機械翻訳システム Moses で使われている。

FLMのツールキットは SRILM に付属していて、 FLM tutorialに詳しい説明がある。

Jamoussi, Salma / Langlois, David / Haton, Jean-Paul / Smaili, Kamel (2004),
Statistical feature language model,
In INTERSPEECH-2004,

bilmes+2003と同じく、単語を素性の束で表したN-gramモデル。
素性の束を単純に結合して、従来のN-gramモデルを作る。
つまり、バックオフは一般化せず、素性の束を新しい字面とみなす。
実装も(FLMを含まない)SRILMツールキットを使ったシンプルなもの。
でもあまり効果がなかったらしい。