SLM Toolkit による N-gram 頻度の計数

SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。
(idngram, n=2,3)
CMU の方は チェインハッシュ、
Pamkit は内部ハッシュを使っている。

そのうちベンチマークしてみよう。

test.text

a b r a c a d a b r a

test.idngram (ascii)

1 2 5 2
1 3 1 1
1 4 1 1
2 5 1 2
3 1 4 1
4 1 2 1
5 1 3 1

言語モデル作成キットとして以外の使い道もあるよ、と。