Howstuffworks "How DNA Evidence Works"

bio net

http://science.howstuffworks.com/dna-evidence.htm/printable DNA鑑定で２つのDNAシークェンスの持ち主が同一であるかどうかの根拠というのは、基本的には、シークェンスを母集団としてサンプリングして検定する、という感じらしい。（ほとんど読んでい…

2005-09-29

dot emacs settings

net linux emacs

http://www-tsujii.is.s.u-tokyo.ac.jp/~yoshinag/tips/dot_emacs.html

2005-09-29

Emacs の shell で日本語表示日本語入力

linux emacs

(add-hook 'shell-mode-hook '(lambda () (set-buffer-process-coding-system 'euc-jp 'euc-jp)))

2005-09-29

Emacs

linux emacs net

http://www002.upp.so-net.ne.jp/mamewo/emacs.html Emacs を使い易くする設定いろいろ。

2005-09-28

Conditional Random Fields

nlp net

http://www.inference.phy.cam.ac.uk/hmw26/crf/ CRFに関係する論文、ソフトウェアのまとめサイト。 CRF は構造型データのラベルづけの確率モデル。

2005-09-26

Language Evolution and Computation Research Unit

lx net

http://www.ling.ed.ac.uk/lec/research.html Evolving Communication through the Inference of Meaning. Andrew Smith (2003) など、博士論文が置いてある。

2005-09-24

ヒンディー語の世界にようこそ

lx hindi net

http://www.aa.tufs.ac.jp/~kmach/ ここでは、主に南アジアおよびヒンディー語に関する研究成果とそれを応用したコンテンツを公開しています。デーヴァーナーガリー文字の書き方とか。

2005-09-24

輪講 Argamon et al.のMDL変化分定式化への指摘

segmentation

p に関する再分割において、コーパス中の新morph p の部分による符号長増加分は、 V_p / N として、p がそれ以前にmorphとして存在していないことを仮定している。つまり、同一の接頭辞が2回とりだされること想定していない。改良：増加 -log(P^(p)); P^(…

2005-09-23

三項演算子の正しい書き方ってあるのだろうか

javascript programming net

http://la.ma.la/blog/diary_200509220220.htm Test.Builder.globalScope = (typeof JSAN != 'undefined') ? JSAN.globalScope : (typeof window != 'undefined') ? window : (typeof _global != 'undefined') ? _global : null;三項演算子は（すくなくともJ…

2005-09-20

大量のファイルを効率的にコピー

linux howto

tar c FROM/ | (cd TO/ && tar x)FROM/* を、TO/FROM/* にコピー。

2005-09-17

projects/segment/segnaive/Segment.java

segmentation java

Java は仮想メモリを使えない？現在のプログラムでは3Mバイトのデータを扱えない。（途中でメモリが足りずに Error 終了）まあ、仮に使えたとしても使いものにならない速度の気がする。節約のため、Bigramの過去の履歴を放棄しなければならない。みたい…

2005-09-15

報告会での指摘のまとめ

segmentation

Creutzの確率モデルによる単語分割のアルゴリズムについて：探索には接尾辞配列などの効率的なデータ構造を使うのではないか。 ArgamonらのMDL原理の手法について：データ構造を見極めること。両者について、一応実装の可能性を探る。同時に、パープレキ…

2005-09-15

Java プログラム中からVMの設定を変更する

java

[2005-09-03]……のはたぶん無理。メモリ使用量を見るのは、java.lang.Runtime.なんとか。

2005-09-15

Gnuplot.pm

net

http://search.cpan.org/src/caidaperl/chart-graph-2.0/doc/graph_gnuplot.html Chart::Graph::Gnuplot

2005-09-13

PPM*言語モデルを用いた日本語単語分割 (北2000)

segmentation

2005-09-13

PPM*言語モデルによるパープレキシティ

segmentation

パープレキシティ: ある言語モデルのもとで、対象テキスト（単語列、文字列）が生成される確率の逆数の、単語（文字）あたりの平均。たとえば、w1,w2,w3,w4 という単語列に対して perplexity = ( P(w4|w1w2w3) P(w3|w1w2) P(w2|w1) P(w1) ) ^ (-1/4) n 乗…

2005-09-12

JavaScript -- The Definitive Guide

net

http://www.unix.org.ua/orelly/web/jscript/index.html O'Reilly の本。

2005-09-12

接続確率最小法による教師なし単語分割 (飯塚2000)

segmentation

文字列 C[i-n .. i] が”単語”であるなら、（つまり C[i] が単語の終わりなら）、 C[i-n .. i-1] から C[i] を高い確率で予想できるのに対し、 C[i-n+1 .. i] から C[i+1] を低い確率でしか予想できない。すなわち、 P( C[i] | C[i-n .. i-1] ) > P( C[i+1] …

2005-09-11

Suffix Array を用いた日本語単語分割 (伊東1999)

string segmentation

基本的には、対象文字列の区間と一致している事例データの区間を見つけ、そこでの分割を真似する、という方法。対象文字列中の各位置からの部分文字列のうち、事例文字列に現れ、かつ長さ極大の部分文字列に対する事例での分割を類似度の重みつきで採用す…

2005-09-09

Collection & Copy

net

http://d.hatena.ne.jp/brazil/ JavaScript関係。ドキュメントの翻訳など。

2005-09-06

Ukkonen の線形時間での接尾辞木構築アルゴリズムの実装

java algorithm

データ構造は http://www.dogma.net/markn/articles/suffixt/stree.cpp を参考にした。ノードと枝ラベルの先頭文字から、枝を引くことができる連想配列。初期化：1文字の接尾辞木根と、１つのノード、それらの間の枝。根のsuffix linkは自分自身に。葉はn…

2005-09-04

Map ではまった

java

Map や Set を使う場合、クラスTは、 hashCode(), equals(Object o) をオーバーライドしている必要がある。 equals()について２つのオブジェクトが等しいなら、両者のhashCode() が一致する。ジェネリックを使っていても、equals(T t)は決して呼び出されない…

2005-09-03

Topic #7 -- Tries and suffix trees

algorithm string net

http://www.cs.mcgill.ca/~cs251/oldcourses/1997/topic7/trie（トライ）とは、k分位置木 (k-ary position tree) で、辞書（連想配列）へのアクセスを効率化するためのデータ構造である。辞書は、ある文字列がその辞書に入っているかどうかを調べる機能を持…

2005-09-03

PATRICIA

algorithm string net

http://www.csse.monash.edu.au/~lloyd/tildealgds/tree/patricia/

2005-09-03

Argamon et al のデータ構造

segmentation

データ構造 Main Suffix TrieとReversed Prefix Trieは、それぞれ、全ての単語に関する接尾辞木である、一般化接尾辞木の構築アルゴリズムを真似た、 trieだと思われる。一般化接尾辞木(Generalized Suffix Tree)とは、複数の文字列に対する接尾辞木を併合…