Language Modeling with the Maximum Likelihood Set -- Complexity Issues and the Back-off Formula

http://www.ipam.ucla.edu/publications/ds2006/ds2006_5861.pdf
Maximum Likelihood Set [2006-04-06-4] 応用の解説プレゼン。

最尤推定では、単体上で格子状の点集合のどれかしかとれず、
周縁に位置することにより、0確率がたくさんできてしまう。

可能な点集合(確率分布の集合)は格子状だが、
観測データはそのなかの1点となる。
MLSはそれを囲むある領域のこと。
直感的には、平面の多角形(超平面の凸多面体)分割で、最近傍サイト共有クラスタという感じ。
その多角形の中の点のうち、参照分布の点に一番近い点を解とする。

参照に使うのは、最尤推定とかだと悪いところをそのまま受け継いでしまうので、
スムージングされた分布か、
次元がすごく少ない分布がいいかも。
逆に言うと、そういう参照分布しか手に入らないような場合に有効な気が。
ドメイン適応とか。

実験結果では、
Modified-Kneser-Ney などと比較して、それを参照分布としたときのMLS法は、
パープレキシティ、WERで、
よくなったり悪くなったりという、いまいちな結果。

MLSの領域基準にパラメータを入れて(「ほかのα倍より大きい」)やったバージョンでは、
一応常に改善したらしい。

あと、未知N-gram数は結構減っている。

主張としては、MLS が証拠と参照を裏切らない(カウントが大きければ確率が高い、とか)
のが良い効果を生むだろうということだと思う。
実際、Kneser-Ney は結構裏切るらしい。
パープレキシティは同じでも、中身は結構(よい方へ)違っているのだ、といっている。

理論的に非常にきれいで、分かりやすいのがすばらしい。
証明は多分大変だろうけど。

パラメータフリーであることも長所?
上記のαは、分割してできる領域の平均半径とかで、うまくいくらしい。
それくらいのチューニングの余地を残しておいてもよい気はするが。
αが大きいと、経験分布より参照分布を信頼するようになる。

で、肝心の最適化の手法が分からないんですが。
MLSの不等式制約による表現を見ると、
線形計画問題に落とされているっぽい。
ただ、参照分布にもっとも近いのを選ぶのは不明。
Convex Optimization だとは書いてあるが…

最尤推定に近すぎるんじゃないかとU氏。

枠組みとしては、参照分布とαの選び方に自由度がある。