mtbrの日記

考察（予想）

segmentation

2-gram 言語モデルの closed なパープレキシティはたしかに低い
2-gram 言語モデルの open なパープレキシティも低め
3-gram 言語モデルの closed/open パープレキシティは低くない

2-gram ヒットが増えた分、3-gram ヒットは減っている。

原理上、確率推定の信頼性が落ちる方向に向かっている

データ量を増やしたとき、言語モデル性能が悪化する可能性も。