Text algorithms by M. Crochemore and W. Rytter

string algorithm book

http://web.njit.edu/~rytter/teaching/texts/book.html 少し古い(1994)文字列アルゴリズムの本。

2007-12-26

boost

regex [cxx][programming] boost::regex は Perl みたいな感じで正規表現を使わせてくれるライブラリ。 #include <iostream> #include <boost/regex.hpp> int main() { using namespace std; using boost::regex; using boost::sregex_token_iterator; string s("a/b c/d e/f"); sregex_</boost/regex.hpp></iostream>…

2007-12-25

アナグラム

string ruby

意外な単語がアナグラムだったりします。 thread HATRED reproduce PROCEDURE thousand HANDOUTS generate TEENAGER process CORPSES PROCESS ruby -e'class String; def sort(); self.split(//).sort.join;end;end; dic={}; ARGV.each{|f| File.open(f).eac…

2007-12-21

N-gram Template Library

cxx nlp

http://karlmicha.googlepages.com/lg 作ってたのとほとんど同じものがあった。

2007-11-28

Rubyにおける改行

ruby

オブジェクトとメソッドのあいだには改行があってはいけないようです。 ↓コンパイルエラー p(1 + 2)↓もちろんこれはOK p(1+ 2)

2007-11-28

配列の順列の列挙

ruby

class Array def perm() if self.length <= 1 then [self] else a=self[1..-1].perm; c=[]; a.each { |x| 0.upto(x.length) { |y| c.push( (y==0 ? [] : x[0..y-1]) + [ self[0] ] + x[y..-1]) } } c.uniq end end end "123".split(//).perm.each{ |x| p x }…

2007-11-25

C++におけるユニコード文字列は std

wstring で [programming][cxx] C++でユニコード文字といえば ICU4C があるけれど、・APIが非常にJava的なので、あまり使いたくない(STLと相性が悪い) ・正規化処理等を含んでいるので、単に格納して単なる文字列と同じように使いだけの場合にはオーバース…

2007-11-24

均等分割

cxx

最初を適当に決めて、残りを再帰で均等に。頭の悪いアルゴリズムなので、計算量とかスタックとかがいろいろ大変なことになっている。 #include <iostream> #include <list> #include <iterator> #include <locale> #include <cassert> using namespace std; pair<list<wstring>,size_t> divid_len(size_t num, const w</list<wstring></cassert></locale></iterator></list></iostream>…

2007-11-23

なんどめかの「知っていない」

lx

「知ってる？」に対するもっとも適切な応答が「知ってる」もしくは「知らない」という非対称なペアであること、あるいはもっと端的には、「知っていない」という表現がほとんど非文法的であることが近年問題になっているわけですが、簡単に内省による…

2007-09-29

TSPとしてのいろは歌（文字の都市）

neta string

文字2-gram確率の最大化だけを目的としたいろは歌生成は、文字＝都市の巡回セールスマン問題インスタンスに相当する。日本語の音韻的制約（iaはあるけどiuはないとか）を反映した程度のゆるい文法性しか付与できないと思われる。文字N-gram化することも可…

2007-09-05

リレーショナル・データベースの世界

db net

http://www.geocities.jp/mickindex/database/idx_database.html

2007-09-05

ruby でmultibyte文字単位の処理

ruby

/usr/bin/ruby -Ke -rjcode -e'STDIN.each{|x| if x.jlength>70 then puts x; end} 文字数70以上の行だけを出力する例

2007-09-05

階層型生成モデルによるキャッシュモデル

lm

2007-09-04

Algorithms on Strings by Crochemore

string

出てました。あまり分厚くない文字列アルゴリズム本。最近の文字列アルゴリズムの進展は全くついていけなくて、書籍である程度基礎がためしないとなと思っていたので読んでみる。数ページしか読んでませんが、この著者って Jewels の人ですね。 amazonで…

2007-08-26

Xuerui Wang

people net

http://www.cs.umass.edu/~xuerui/research.html data mining 系トピックモデリング

2007-08-23

blogs nodalpoint wiki

bio net

http://wiki.nodalpoint.org/blogs

2007-08-21

tr, s のほうが Unicode Japanese より速い

perl

#! /usr/bin/env perl use utf8; use Benchmark; use Unicode::Japanese qw[unijp]; use Readonly; use Encode; Readonly my %dakuon => map {$_} split //, 'ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'; Read…

2007-08-21

use utf8 より $KCODE='UTF8' のほうが速い

ruby perl

#! /usr/bin/env ruby $KCODE='UTF8' require 'moji' DAKUON = Hash[*('ウヴカガキギクグケゲコゴサザシジスズセゼソゾタダチヂツヅテデトドハバヒビフブヘベホボ'.split //)] HANDAK = Hash[*('ハパヒピフプヘペホポ'.split //)] DAKUON_ORIGIN = DAKUON.ke…

2007-08-16

Unsupervised Language Model Adaptation Incorporating Named Entity Information

lm net

http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、文書クラスタリングに基づく適応をやったという話。

2007-08-16

A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging

learn net

2007-08-10

Fast exact maximum likelihood estimation for mixture of language models

lm ir

http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部（）で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…

2007-08-09

www.codeblog.org - CODE blog

programming net

https://www.codeblog.org/

2007-08-07

The Xapian Project

ir net

http://www.xapian.org/

2007-08-06

未知語

lm

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、訓練データでの分布も、同じ分布（A:B:C:D:E = 2:1:1:1:1）だとしよう。モデル１はABCという３つの単…

2007-08-06

mecab/swig で形態素のオリジナルテキスト上での位置を得る

segmentation nlp

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が元のテキストの何バイト目から何バイト目に出現したか分かるので、元のテキスト中にスペースがあ…

2007-08-02

Processing 1.0 (BETA)

ui programming net

http://processing.org/ Yet another programming environment for education http://processing.org/reference/libraries/

2007-07-24

The Ubuntu NLP Repository

linux nlp net

http://cl.naist.jp/~eric-n/ubuntu-nlp/ NAISTのericさんによる Ubuntu 用リポジトリ。

2007-07-21

factored language models

lm

Traditional SLMs are based on N-gram language models (NGLMs), which essentially treat each word occurrence as an probabilistic event.Naive NGLMs are suffered with data sparseness. One examples was ...To avoid the data sparseness problem, .…

2007-07-18

Language model smoothing tutorial

lm net

http://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf ふつうのLMスムージング

2007-07-17

系列ラベリング問題に関するメモ

learning segmentation net

http://cl.naist.jp/~masayu-a/article/2006-05-26.pdf

mtbrの日記

2007-01-01から1年間の記事一覧

Text algorithms by M. Crochemore and W. Rytter

boost

アナグラム

N-gram Template Library

Rubyにおける改行

配列の順列の列挙

C++におけるユニコード文字列は std

均等分割

なんどめかの「知っていない」

TSPとしてのいろは歌（文字の都市）

リレーショナル・データベースの世界

ruby でmultibyte文字単位の処理

階層型生成モデルによるキャッシュモデル

Algorithms on Strings by Crochemore

Xuerui Wang

blogs nodalpoint wiki

tr, s のほうが Unicode Japanese より速い

use utf8 より $KCODE='UTF8' のほうが速い

Unsupervised Language Model Adaptation Incorporating Named Entity Information

A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging

Fast exact maximum likelihood estimation for mixture of language models

www.codeblog.org - CODE blog

The Xapian Project

未知語

mecab/swig で形態素のオリジナルテキスト上での位置を得る

Processing 1.0 (BETA)

The Ubuntu NLP Repository

factored language models

Language model smoothing tutorial

系列ラベリング問題に関するメモ