2007-08-01から1ヶ月間の記事一覧
http://www.cs.umass.edu/~xuerui/research.html data mining 系トピックモデリング
http://wiki.nodalpoint.org/blogs
#! /usr/bin/env perl use utf8; use Benchmark; use Unicode::Japanese qw[unijp]; use Readonly; use Encode; Readonly my %dakuon => map {$_} split //, 'ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'; Read…
#! /usr/bin/env ruby $KCODE='UTF8' require 'moji' DAKUON = Hash[*('ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'.split //)] HANDAK = Hash[*('ハパヒピフプヘペホポ'.split //)] DAKUON_ORIGIN = DAKUON.ke…
http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、 文書クラスタリングに基づく適応をやったという話。
http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、 厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…
https://www.codeblog.org/
http://www.xapian.org/
AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。 簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、 訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。モデル1はABCという3つの単…
http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…
http://processing.org/ Yet another programming environment for education http://processing.org/reference/libraries/