2005-12-01 考察(予想) segmentation 2-gram 言語モデルの closed なパープレキシティはたしかに低い 2-gram 言語モデルの open なパープレキシティも低め 3-gram 言語モデルの closed/open パープレキシティは低くない 2-gram ヒットが増えた分、3-gram ヒットは減っている。 原理上、確率推定の信頼性が落ちる方向に向かっている データ量を増やしたとき、言語モデル性能が悪化する可能性も。