考察(予想)

  • 2-gram 言語モデルの closed なパープレキシティはたしかに低い
  • 2-gram 言語モデルの open なパープレキシティも低め
  • 3-gram 言語モデルの closed/open パープレキシティは低くない

2-gram ヒットが増えた分、3-gram ヒットは減っている。

  • 原理上、確率推定の信頼性が落ちる方向に向かっている

データ量を増やしたとき、言語モデル性能が悪化する可能性も。