SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。
(idngram, n=2,3)
CMU の方は チェインハッシュ、
Pamkit は内部ハッシュを使っている。
そのうちベンチマークしてみよう。
test.text
a b r a c a d a b r a
test.idngram (ascii)
1 2 5 2
1 3 1 1
1 4 1 1
2 5 1 2
3 1 4 1
4 1 2 1
5 1 3 1
言語モデル作成キットとして以外の使い道もあるよ、と。