p に関する再分割において、
コーパス中の新morph p の部分による符号長増加分は、
として、p がそれ以前にmorphとして存在していないことを仮定している。
つまり、同一の接頭辞が2回とりだされること想定していない。
改良:
増加 -log(P^(p)); P^(p)=B(p)/(N+B(p)) のみだったのを
減少 log(P(p)); P(p)=C(p)/N と、
増加 -log(P^(p)); P^(p)=(C(p)+B(p))/(N+B(p)) とする。
いずれにしろ(辞書・コーパスの他の大部分によらず) p にのみ依存する表現。