重複なしでの頻度と重複ありでの頻度の使い分け

複数文字列を含む区間をひとまとめに符号化するときに、重複なしで数える必要がある。
(つまり連結対象文字の連結される出現)

たとえば、コーパス AAAA 上で AA を連結するとき。
コーパスの左端から順に連結していくことを想定すると、
通常の(重複あり)頻度=3を、 連結対象となる符号化区間の数としてはならない。
符号化区間はたがいに重複してはいけないから(おなじ部分を2回符号化することになる)

そのほかの確率の計算で用いる頻度は、すべて重複ありでよい。

2回符号化してはいけない、ということに関連して、
ABの連結のときと同じ計算を B=A のときにしてしまうと、
A に関する符号化と B=A に関する符号化が重複するのにも注意。