2005-11-17から1日間の記事一覧

アルファベット拡大したSuffix Tree における部分文字列マッチ

拡大されたSuffix Tree は文字単位ではなく単語単位のSuffix Treeとなり、 枝は「単語」でラベルづけされる。 単語は文字列なので、 ノードからノードに枝をたどるときには、 単語数で長さ 1 の枝でも、その文字数分のマッチが必要になる。このため、単語単…

どういう「言語」を対象に、言語モデルを作るのか

新聞記事の言語モデルを1日分の記事から作ってみたが、 かなり性能が悪い。 同じ学習データを茶筌で分割したものから作った言語モデルと比べても、かなり悪い。まず、学習データが少なすぎるので、意味のある比較はできない、というのがある。 MDLの方法は、…