符号化するなら、確率表も送らないと復元できない
麻生さんからの御指摘。
秋葉先生からも、一度言われていたが。
辞書 0-gram、コーパス 1-gram の場合は、
辞書に確率表は不要で、
コーパスに対する確率表は、
辞書エントリに固定長の確率部を追加したと考えればよい。
この場合は、結局確率表を符号化しなくても、手続きに問題はないが、
少なくとも無視して良いことを述べておくべき。
辞書 1-gram の場合は、文字の符号長を(コーパスに現れたかどうかにかかわらず)
全文字に対する確率表を持っていると考えれば、辞書の確率表は固定長。
コーパス 2-gram に関しては、確率表の大きさが、
辞書エントリ数の二乗のオーダー。
つまり、単語辞書の他に、単語連接辞書を符号化する必要がある。
でも、単語連接辞書も加わるとなると、ペナルティが高すぎるような…