記憶のある符号化

1-gram 確率にもとづく文字あたり(=全体での)エントロピー最小化の分割は、
2-gram, 3-gram での単語あたりエントロピーの低減には役に立たなさそう。
[2005-11-16-1]の

1-gram で最適なら、2-gram でもある程度よくなるのでは?

という考えが間違っていたということ。

ということで、記憶のある符号化に切替え、
2-gram 確率にもとづく文字あたりエントロピー最小化の分割を目指す。

記憶のある符号化での、符号長の変化をできるだけ局所的に求めるには、
すくなくとも連結対象が2回つづけて現れているという、
4単語連接の出現頻度、ほかに3単語、2単語、1単語の出現頻度を知る必要がある。
また、記憶のない場合と違い、辞書の大きさにすら依存しない記述長変化分の計算は無理な気がする。