2005-09-01から1ヶ月間の記事一覧
http://science.howstuffworks.com/dna-evidence.htm/printable DNA鑑定で2つのDNAシークェンスの持ち主が同一であるかどうかの根拠というのは、 基本的には、シークェンスを母集団としてサンプリングして検定する、 という感じらしい。(ほとんど読んでい…
http://www-tsujii.is.s.u-tokyo.ac.jp/~yoshinag/tips/dot_emacs.html
(add-hook 'shell-mode-hook '(lambda () (set-buffer-process-coding-system 'euc-jp 'euc-jp)))
http://www002.upp.so-net.ne.jp/mamewo/emacs.html Emacs を使い易くする設定いろいろ。
http://www.inference.phy.cam.ac.uk/hmw26/crf/ CRFに関係する論文、ソフトウェアのまとめサイト。 CRF は構造型データのラベルづけの確率モデル。
http://www.ling.ed.ac.uk/lec/research.html Evolving Communication through the Inference of Meaning. Andrew Smith (2003) など、博士論文が置いてある。
http://www.aa.tufs.ac.jp/~kmach/ ここでは、主に南アジアおよびヒンディー語に関する研究成果と それを応用したコンテンツを公開しています。 デーヴァーナーガリー文字の書き方とか。
p に関する再分割において、 コーパス中の新morph p の部分による符号長増加分は、 V_p / N として、p がそれ以前にmorphとして存在していないことを仮定している。 つまり、同一の接頭辞が2回とりだされること想定していない。改良: 増加 -log(P^(p)); P^(…
http://la.ma.la/blog/diary_200509220220.htm Test.Builder.globalScope = (typeof JSAN != 'undefined') ? JSAN.globalScope : (typeof window != 'undefined') ? window : (typeof _global != 'undefined') ? _global : null;三項演算子は(すくなくともJ…
tar c FROM/ | (cd TO/ && tar x)FROM/* を、TO/FROM/* にコピー。
Java は仮想メモリを使えない? 現在のプログラムでは3Mバイトのデータを扱えない。(途中でメモリが足りずに Error 終了) まあ、仮に使えたとしても使いものにならない速度の気がする。 節約のため、Bigramの過去の履歴を放棄しなければならない。 みたい…
Creutzの確率モデルによる単語分割のアルゴリズムについて: 探索には接尾辞配列などの効率的なデータ構造を使うのではないか。 ArgamonらのMDL原理の手法について: データ構造を見極めること。 両者について、一応実装の可能性を探る。 同時に、パープレキ…
[2005-09-03]……のはたぶん無理。 メモリ使用量を見るのは、java.lang.Runtime.なんとか。
http://search.cpan.org/src/caidaperl/chart-graph-2.0/doc/graph_gnuplot.html Chart::Graph::Gnuplot
パープレキシティ: ある言語モデルのもとで、対象テキスト(単語列、文字列)が生成される確率の逆数の、 単語(文字)あたりの平均。 たとえば、w1,w2,w3,w4 という単語列に対して perplexity = ( P(w4|w1w2w3) P(w3|w1w2) P(w2|w1) P(w1) ) ^ (-1/4) n 乗…
http://www.unix.org.ua/orelly/web/jscript/index.html O'Reilly の本。
文字列 C[i-n .. i] が”単語”であるなら、(つまり C[i] が単語の終わりなら)、 C[i-n .. i-1] から C[i] を高い確率で予想できるのに対し、 C[i-n+1 .. i] から C[i+1] を低い確率でしか予想できない。 すなわち、 P( C[i] | C[i-n .. i-1] ) > P( C[i+1] …
基本的には、対象文字列の区間と一致している事例データの区間を見つけ、 そこでの分割を真似する、という方法。 対象文字列中の各位置からの部分文字列のうち、事例文字列に現れ、 かつ長さ極大の部分文字列に対する事例での分割を類似度の重みつきで採用す…
http://d.hatena.ne.jp/brazil/ JavaScript関係。ドキュメントの翻訳など。
データ構造は http://www.dogma.net/markn/articles/suffixt/stree.cpp を参考にした。 ノードと枝ラベルの先頭文字から、枝を引くことができる連想配列。初期化:1文字の接尾辞木 根と、1つのノード、それらの間の枝。 根のsuffix linkは自分自身に。葉はn…
Map や Set を使う場合、クラスTは、 hashCode(), equals(Object o) をオーバーライドしている必要がある。 equals()について2つのオブジェクトが等しいなら、両者のhashCode() が一致する。ジェネリックを使っていても、equals(T t)は決して呼び出されない…
http://www.cs.mcgill.ca/~cs251/oldcourses/1997/topic7/trie(トライ)とは、k分位置木 (k-ary position tree) で、辞書(連想配列)へのアクセスを効率化するためのデータ構造である。 辞書は、ある文字列がその辞書に入っているかどうかを調べる機能を持…
http://www.csse.monash.edu.au/~lloyd/tildealgds/tree/patricia/
データ構造 Main Suffix TrieとReversed Prefix Trieは、 それぞれ、全ての単語に関する接尾辞木である、一般化接尾辞木の構築アルゴリズムを真似た、 trieだと思われる。一般化接尾辞木(Generalized Suffix Tree)とは、複数の文字列に対する接尾辞木を併合…
http://citeseer.ist.psu.edu/argamon04efficient.html [2005-09-02-1] の論文。
概念 対象文字列の最後尾に1文字増えたとき、接尾辞木を更新する。 ただし、ここでの接尾辞木は終端文字を含まず、葉以外のノードで接尾辞が終わることもあるような木である。 対象文字列にxが追加されたとき、それまでの任意の接尾辞aをaxに変えることがこ…
http://ll.jus.or.jp/2005/details/program/ Light weight Language のスペシャリストの会合。 言語の特徴の解説や、おもしろいデモなどの資料へのリンクあり。
単語中の形態素を発見するアルゴリズム。形態素辞書と、単語の集合で初期化する。 辞書とそれによって符号化したコーパスの記述長をもっともよく減らす 接頭辞形態素を見つけ、それを辞書に追加する。 記述長を減らす接頭辞が存在しなくなれば終了。接頭辞を…
接尾辞配列を直接構築する方法のほとんどは、 全部をソートせず、一部分だけをソートし、 残りは接尾辞同士の関係から順序を決める、というものが多いようだ。 直接構築でないのは、いったん接尾辞木を作る方法。また、自然言語データは、長い部分一致箇所が…