報告会での指摘のまとめ

Creutzの確率モデルによる単語分割のアルゴリズムについて:
探索には接尾辞配列などの効率的なデータ構造を使うのではないか。
ArgamonらのMDL原理の手法について:
データ構造を見極めること。
両者について、一応実装の可能性を探る。
同時に、パープレキシティ基準による単語片併合の実験を続ける。

パープレキシティの対数をとったものは、エントロピーに等しい。
→ 対数パープレキシティとエントロピーのグラフは、2軸にする必要がない。
というか、エントロピーはユニグラム確率に対するものだけではない、ということ。
対数パープレキシティは、エントロピーの別名と考えてもよい。
ということで、パープレキシティとエントロピーの混在には注意する。
特に、今回はunigramエントロピーと、対数trigramパープレキシティを併記したので混乱を招く。