2005-12-15 確率推定用コーパスとパープレキシティ評価用コーパスを分ける segmentation 過学習を避ける方法。 推定用にはあって、評価用にはない、という N-gram ができることがあるので、 バックオフが必須。 あと、評価用のために過学習すると本末転倒なので、 交差検定のようなことをする必要があるかと。