Language Modeling with the Maximum Likelihood Set -- Complexity Issues and the Back-off Formula

最尤推定では、単体上で格子状の点集合のどれかしかとれず、
周縁に位置することにより、0確率がたくさんできてしまう。

可能な点集合（確率分布の集合）は格子状だが、
観測データはそのなかの1点となる。
MLSはそれを囲むある領域のこと。
直感的には、平面の多角形（超平面の凸多面体）分割で、最近傍サイト共有クラスタという感じ。
その多角形の中の点のうち、参照分布の点に一番近い点を解とする。

参照に使うのは、最尤推定とかだと悪いところをそのまま受け継いでしまうので、
スムージングされた分布か、
次元がすごく少ない分布がいいかも。
逆に言うと、そういう参照分布しか手に入らないような場合に有効な気が。
ドメイン適応とか。

実験結果では、
Modified-Kneser-Ney などと比較して、それを参照分布としたときのMLS法は、
パープレキシティ、WERで、
よくなったり悪くなったりという、いまいちな結果。

MLSの領域基準にパラメータを入れて（「ほかのα倍より大きい」）やったバージョンでは、
一応常に改善したらしい。

あと、未知N-gram数は結構減っている。

主張としては、MLS が証拠と参照を裏切らない（カウントが大きければ確率が高い、とか）
のが良い効果を生むだろうということだと思う。
実際、Kneser-Ney は結構裏切るらしい。
パープレキシティは同じでも、中身は結構（よい方へ）違っているのだ、といっている。

理論的に非常にきれいで、分かりやすいのがすばらしい。
証明は多分大変だろうけど。

パラメータフリーであることも長所？
上記のαは、分割してできる領域の平均半径とかで、うまくいくらしい。
それくらいのチューニングの余地を残しておいてもよい気はするが。
αが大きいと、経験分布より参照分布を信頼するようになる。

で、肝心の最適化の手法が分からないんですが。
MLSの不等式制約による表現を見ると、
線形計画問題に落とされているっぽい。
ただ、参照分布にもっとも近いのを選ぶのは不明。
Convex Optimization だとは書いてあるが…

最尤推定に近すぎるんじゃないかとU氏。

枠組みとしては、参照分布とαの選び方に自由度がある。