Xuerui Wang

people net

http://www.cs.umass.edu/~xuerui/research.html data mining 系トピックモデリング

2007-08-23

blogs nodalpoint wiki

bio net

http://wiki.nodalpoint.org/blogs

2007-08-21

tr, s のほうが Unicode Japanese より速い

perl

#! /usr/bin/env perl use utf8; use Benchmark; use Unicode::Japanese qw[unijp]; use Readonly; use Encode; Readonly my %dakuon => map {$_} split //, 'ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'; Read…

2007-08-21

use utf8 より $KCODE='UTF8' のほうが速い

ruby perl

#! /usr/bin/env ruby $KCODE='UTF8' require 'moji' DAKUON = Hash[*('ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'.split //)] HANDAK = Hash[*('ハパヒピフプヘペホポ'.split //)] DAKUON_ORIGIN = DAKUON.ke…

2007-08-16

Unsupervised Language Model Adaptation Incorporating Named Entity Information

lm net

http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、文書クラスタリングに基づく適応をやったという話。

2007-08-16

A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging

learn net

2007-08-10

Fast exact maximum likelihood estimation for mixture of language models

lm ir

http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部（）で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…

2007-08-09

www.codeblog.org - CODE blog

programming net

https://www.codeblog.org/

2007-08-07

The Xapian Project

ir net

http://www.xapian.org/

2007-08-06

未知語

lm

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、訓練データでの分布も、同じ分布（A:B:C:D:E = 2:1:1:1:1）だとしよう。モデル１はABCという３つの単…

2007-08-06

mecab/swig で形態素のオリジナルテキスト上での位置を得る

segmentation nlp

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が元のテキストの何バイト目から何バイト目に出現したか分かるので、元のテキスト中にスペースがあ…