2007-08-01から1ヶ月間の記事一覧

Xuerui Wang

http://www.cs.umass.edu/~xuerui/research.html data mining 系トピックモデリング

blogs nodalpoint wiki

http://wiki.nodalpoint.org/blogs

tr, s のほうが Unicode Japanese より速い

#! /usr/bin/env perl use utf8; use Benchmark; use Unicode::Japanese qw[unijp]; use Readonly; use Encode; Readonly my %dakuon => map {$_} split //, 'ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'; Read…

use utf8 より $KCODE='UTF8' のほうが速い

#! /usr/bin/env ruby $KCODE='UTF8' require 'moji' DAKUON = Hash[*('ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'.split //)] HANDAK = Hash[*('ハパヒピフプヘペホポ'.split //)] DAKUON_ORIGIN = DAKUON.ke…

Unsupervised Language Model Adaptation Incorporating Named Entity Information

http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、 文書クラスタリングに基づく適応をやったという話。

A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging

Fast exact maximum likelihood estimation for mixture of language models

lm ir

http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、 厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…

www.codeblog.org - CODE blog

https://www.codeblog.org/

The Xapian Project

http://www.xapian.org/

未知語

lm

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。 簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、 訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。モデル1はABCという3つの単…

mecab/swig で形態素のオリジナルテキスト上での位置を得る

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…

Processing 1.0 (BETA)

http://processing.org/ Yet another programming environment for education http://processing.org/reference/libraries/