どういう「言語」を対象に、言語モデルを作るのか

新聞記事の言語モデルを1日分の記事から作ってみたが、
かなり性能が悪い。
同じ学習データを茶筌で分割したものから作った言語モデルと比べても、かなり悪い。

まず、学習データが少なすぎるので、意味のある比較はできない、というのがある。
MDLの方法は、学習データが少ないと知っている単語が少ないし、
学習データに最適なものを探すので、どうしても過学習におちいる危険性がある。

別の点として、新聞のような豊富な語彙を背景にしたデータよりも、
特定の分野に関する内容で、特定のスタイル(講演など)の「言語」を対象としたほうが、
MDLの方法にとって有利になるような気がする。