差分の差分

[2005-11-28-1] では連結によって記述長差分に影響を受ける2-gram についてのみ、
記述長差分を再計算する、とした。
けれども、もっと詳しく見れば、
記述長差分を構成する項のうち、影響を受ける項だけを更新することもできるはず。

そこで、差分の差分のようなものを定式化することにより、
コーパス長差分の更新が定数時間で行えるのでは?

CD の連結に際して、AB連結によるコーパス長差分がどれだけ変化するかを考える。
A=C, A=D, B=C, B=D の場合は、影響範囲がAB以外に関する符号化の部分全体に及び、
変化の計算と再計算の手間があまり変わらないので、普通に再計算する。

そうでない場合、つまり AB と CD の全ての単語が相異なるときは、
一定の数の項しか影響を受けないので、その部分に関する増減を式で与えれば、
そのような AB のコーパス長差分の更新は一定の時間で行える。