Modeling word burstiness using the Dirichlet distribution

http://portal.acm.org/citation.cfm?id=1102420
Dirichlet分布を使った文書モデル。
単語頻度の経験的分布において、
多項分布によって表すことができない性質があることを示し、
それを Dirichlet 分布で表すことができることを示す。
(明らかに傾向が違う)

多項分布モデル(単語頻度だけの Vector Space Model)は良くないが、
Vectorの作り方を TFIDF などログスケールにした場合はよくなる。
Dirichletモデルは、そのようなヒューリスティクスを使わなくても、近い性能が出る。
(というか最初から対数線形…)

双方を改善するヒューリスティクス(先行研究):
Complement modeling (complement training) は、
あるクラスに対象が属する確率を、属しないデータを使って推定する。
属するデータより属しないデータの方が多いから有効?

Dirichlet 分布モデルの論文の中で、一番分かりやすかった。