Shlomo Argamon et al, Efficient Unsupervised Recursive Word Segmentation Using Minimum Description Length

単語中の形態素を発見するアルゴリズム

形態素辞書と、単語の集合で初期化する。
辞書とそれによって符号化したコーパスの記述長をもっともよく減らす
接頭辞形態素を見つけ、それを辞書に追加する。
記述長を減らす接頭辞が存在しなくなれば終了。

接頭辞を形態素辞書に追加したときに記述長がどれだけ増えるかを、
局所的に計算可能にして、効率化している。

辞書のデータ構造は2重のtrieと、
各接頭辞の局所記述長の増分による順序付のヒープ。

各ノードに至るまでの枝が、接頭辞を表す Main Suffix Trie と、
すべての単語の文字列を逆転させて構成した、
各ノードに至るまでの枝が、接尾辞を表す Reversed Suffix Trie を併用。

RSTのノードから、MSTの対応接尾辞で終わるノードへのポインタがある。
(1対多)

trie の初期化にはよく知られたアルゴリズム(Gusfield 1997のAlgorithms on Strings