輪講 Argamon et al.のMDL変化分定式化への指摘

p に関する再分割において、
コーパス中の新morph p の部分による符号長増加分は、

V_p / N

として、p がそれ以前にmorphとして存在していないことを仮定している。
つまり、同一の接頭辞が2回とりだされること想定していない。

改良:
増加 -log(P^(p)); P^(p)=B(p)/(N+B(p)) のみだったのを
減少 log(P(p)); P(p)=C(p)/N と、
増加 -log(P^(p)); P^(p)=(C(p)+B(p))/(N+B(p)) とする。

いずれにしろ(辞書・コーパスの他の大部分によらず) p にのみ依存する表現。