2005-09-01から1ヶ月間の記事一覧

Howstuffworks "How DNA Evidence Works"

http://science.howstuffworks.com/dna-evidence.htm/printable DNA鑑定で2つのDNAシークェンスの持ち主が同一であるかどうかの根拠というのは、 基本的には、シークェンスを母集団としてサンプリングして検定する、 という感じらしい。(ほとんど読んでい…

dot emacs settings

http://www-tsujii.is.s.u-tokyo.ac.jp/~yoshinag/tips/dot_emacs.html

Emacs の shell で日本語表示 日本語入力

(add-hook 'shell-mode-hook '(lambda () (set-buffer-process-coding-system 'euc-jp 'euc-jp)))

Emacs

http://www002.upp.so-net.ne.jp/mamewo/emacs.html Emacs を使い易くする設定いろいろ。

Conditional Random Fields

http://www.inference.phy.cam.ac.uk/hmw26/crf/ CRFに関係する論文、ソフトウェアのまとめサイト。 CRF は構造型データのラベルづけの確率モデル。

Language Evolution and Computation Research Unit

http://www.ling.ed.ac.uk/lec/research.html Evolving Communication through the Inference of Meaning. Andrew Smith (2003) など、博士論文が置いてある。

ヒンディー語の世界にようこそ

http://www.aa.tufs.ac.jp/~kmach/ ここでは、主に南アジアおよびヒンディー語に関する研究成果と それを応用したコンテンツを公開しています。 デーヴァーナーガリー文字の書き方とか。

輪講 Argamon et al.のMDL変化分定式化への指摘

p に関する再分割において、 コーパス中の新morph p の部分による符号長増加分は、 V_p / N として、p がそれ以前にmorphとして存在していないことを仮定している。 つまり、同一の接頭辞が2回とりだされること想定していない。改良: 増加 -log(P^(p)); P^(…

三項演算子の正しい書き方ってあるのだろうか

http://la.ma.la/blog/diary_200509220220.htm Test.Builder.globalScope = (typeof JSAN != 'undefined') ? JSAN.globalScope : (typeof window != 'undefined') ? window : (typeof _global != 'undefined') ? _global : null;三項演算子は(すくなくともJ…

大量のファイルを効率的にコピー

tar c FROM/ | (cd TO/ && tar x)FROM/* を、TO/FROM/* にコピー。

projects/segment/segnaive/Segment.java

Java は仮想メモリを使えない? 現在のプログラムでは3Mバイトのデータを扱えない。(途中でメモリが足りずに Error 終了) まあ、仮に使えたとしても使いものにならない速度の気がする。 節約のため、Bigramの過去の履歴を放棄しなければならない。 みたい…

報告会での指摘のまとめ

Creutzの確率モデルによる単語分割のアルゴリズムについて: 探索には接尾辞配列などの効率的なデータ構造を使うのではないか。 ArgamonらのMDL原理の手法について: データ構造を見極めること。 両者について、一応実装の可能性を探る。 同時に、パープレキ…

Java プログラム中からVMの設定を変更する

[2005-09-03]……のはたぶん無理。 メモリ使用量を見るのは、java.lang.Runtime.なんとか。

Gnuplot.pm

net

http://search.cpan.org/src/caidaperl/chart-graph-2.0/doc/graph_gnuplot.html Chart::Graph::Gnuplot

PPM*言語モデルを用いた日本語単語分割 (北2000)

PPM*言語モデルによるパープレキシティ

パープレキシティ: ある言語モデルのもとで、対象テキスト(単語列、文字列)が生成される確率の逆数の、 単語(文字)あたりの平均。 たとえば、w1,w2,w3,w4 という単語列に対して perplexity = ( P(w4|w1w2w3) P(w3|w1w2) P(w2|w1) P(w1) ) ^ (-1/4) n 乗…

JavaScript -- The Definitive Guide

net

http://www.unix.org.ua/orelly/web/jscript/index.html O'Reilly の本。

接続確率最小法による教師なし単語分割 (飯塚2000)

文字列 C[i-n .. i] が”単語”であるなら、(つまり C[i] が単語の終わりなら)、 C[i-n .. i-1] から C[i] を高い確率で予想できるのに対し、 C[i-n+1 .. i] から C[i+1] を低い確率でしか予想できない。 すなわち、 P( C[i] | C[i-n .. i-1] ) > P( C[i+1] …

Suffix Array を用いた日本語単語分割 (伊東1999)

基本的には、対象文字列の区間と一致している事例データの区間を見つけ、 そこでの分割を真似する、という方法。 対象文字列中の各位置からの部分文字列のうち、事例文字列に現れ、 かつ長さ極大の部分文字列に対する事例での分割を類似度の重みつきで採用す…

Collection & Copy

net

http://d.hatena.ne.jp/brazil/ JavaScript関係。ドキュメントの翻訳など。

Ukkonen の線形時間での接尾辞木構築アルゴリズムの実装

データ構造は http://www.dogma.net/markn/articles/suffixt/stree.cpp を参考にした。 ノードと枝ラベルの先頭文字から、枝を引くことができる連想配列。初期化:1文字の接尾辞木 根と、1つのノード、それらの間の枝。 根のsuffix linkは自分自身に。葉はn…

Map ではまった

Map や Set を使う場合、クラスTは、 hashCode(), equals(Object o) をオーバーライドしている必要がある。 equals()について2つのオブジェクトが等しいなら、両者のhashCode() が一致する。ジェネリックを使っていても、equals(T t)は決して呼び出されない…

Topic #7 -- Tries and suffix trees

http://www.cs.mcgill.ca/~cs251/oldcourses/1997/topic7/trie(トライ)とは、k分位置木 (k-ary position tree) で、辞書(連想配列)へのアクセスを効率化するためのデータ構造である。 辞書は、ある文字列がその辞書に入っているかどうかを調べる機能を持…

PATRICIA

http://www.csse.monash.edu.au/~lloyd/tildealgds/tree/patricia/

Argamon et al のデータ構造

データ構造 Main Suffix TrieとReversed Prefix Trieは、 それぞれ、全ての単語に関する接尾辞木である、一般化接尾辞木の構築アルゴリズムを真似た、 trieだと思われる。一般化接尾辞木(Generalized Suffix Tree)とは、複数の文字列に対する接尾辞木を併合…

Argamon et al @CiteSeer

http://citeseer.ist.psu.edu/argamon04efficient.html [2005-09-02-1] の論文。

Ukkonen's algorithm to construct Suffix Tree

概念 対象文字列の最後尾に1文字増えたとき、接尾辞木を更新する。 ただし、ここでの接尾辞木は終端文字を含まず、葉以外のノードで接尾辞が終わることもあるような木である。 対象文字列にxが追加されたとき、それまでの任意の接尾辞aをaxに変えることがこ…

LLDN - プログラム

http://ll.jus.or.jp/2005/details/program/ Light weight Language のスペシャリストの会合。 言語の特徴の解説や、おもしろいデモなどの資料へのリンクあり。

Shlomo Argamon et al, Efficient Unsupervised Recursive Word Segmentation Using Minimum Description Length

単語中の形態素を発見するアルゴリズム。形態素辞書と、単語の集合で初期化する。 辞書とそれによって符号化したコーパスの記述長をもっともよく減らす 接頭辞形態素を見つけ、それを辞書に追加する。 記述長を減らす接頭辞が存在しなくなれば終了。接頭辞を…

自然言語的データに対する接尾辞配列の構築

接尾辞配列を直接構築する方法のほとんどは、 全部をソートせず、一部分だけをソートし、 残りは接尾辞同士の関係から順序を決める、というものが多いようだ。 直接構築でないのは、いったん接尾辞木を作る方法。また、自然言語データは、長い部分一致箇所が…