EM segmentation

関係ない話から。
segmentation といいつつ、文字や文よりも統計処理に向いている単位を探すというのがタスク。
たぶん segmentation / 分割 / 区切り という用語はふさわしくないけれど、
惰性で使っている。
過去の人が使っているから…

確率分割済みコーパス上で
N-gram カウントの期待値を効率的に計算できればほぼ終わり。

A 0.3 B 0.2 C 0.9 B 0.2 C 0.9
なら、
E[ # A B C B C ] = 1 * 0.3 0.2 0.9 0.2 0.9
E[ # A BC BC ] = 1 * 0.3 0.8 0.9 0.8 0.9

のように。