nlp

Javaで実装された形態素解析器 GoSen

GoSen がよさげなので使ってみる。プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morpho…

英語の単語を原形に戻す WordNet-based lemmatizer

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾…

語彙系コミュニティ

nlp

Multiword Expressions: Multiword Expressions http://multiword.sourceforge.net/ACL SIGLEX http://www.clres.com/siglex.html

N-gram Template Library

http://karlmicha.googlepages.com/lg 作ってたのとほとんど同じものがあった。

mecab/swig で形態素のオリジナルテキスト上での位置を得る

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…

The Ubuntu NLP Repository

http://cl.naist.jp/~eric-n/ubuntu-nlp/ NAISTのericさんによる Ubuntu 用リポジトリ。

Natural Language Toolkit

http://nltk.sourceforge.net/index.php/main_page 各種コーパスやWordNetのパーザーがPythonで提供されている。

MUST1 -- 日本語複合辞用例データベース v1.0

http://nlp.iit.tsukuba.ac.jp/must/ Matsuyoshi-Utsuro-Satoh-TsuchiyaでMUST複合辞の表層表現のリストと、 その正例・負例へのポインタ(毎日新聞記事)リストとして提供されている。 ...

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得

AIチャレンジ研究会24回の資料の峯松先生の論文。「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、 N個の点集合が作る形とNxNの距離行列の等価性。 参考:距離 - 朱鷺の杜Wiki注目している集合が閉じてい…

私のブックマーク「Web内容マイニング」人工知能学会誌, vol.22, no.2 (2007)

http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/22-2.html クローラ HTMLパーサ 言語処理ツール のブックマーク perl -MEncode::Guess -e'$b = join q{}, <>; $e=guess_encoding($b, qw/euc-jp shiftjis 7bit-jis utf-8/); print $e->name, "\n"; prin…

Xiaojin Zhu (Jerry Zhu)

http://www.cs.wisc.edu/~jerryzhu/ Semi-supervised learning 専門家。 NLPよりでもある。

Eiji ARAMAKI

http://lab0.com/ 医療情報NLPの人

Language Independent Text Learning with Statistical n-Gram Language Modeling

http://www.cs.umass.edu/~fuchun/publication/thesis.pdf Fuchun Peng さんの博士論文ふたつめ [2006-01-24-3]

USENET as a Text Corpus

http://www.cs.fit.edu/~mmahoney/dissertation/corpus.html

Mori Shinsuke

http://zelch.dnsalias.org/mori/

ELRA Catalogue of Language Resources

http://catalog.elra.info/product_info.php?cpath=42_43&products_id=438&oscsid=c2614983811ba7fb437c21c9438bdd79 Text corpus of "Le Monde"

Bibliography on Automated Text Categorization

http://liinwww.ira.uka.de/bibliography/ai/automated.text.categorization.html

Loebner Prize Home Page

http://www.loebner.net/prizef/loebner-prize.html Turing test で競うコンテスト

The Chatterbox Challenge

nlp

http://www.chatterboxchallenge.com/

SemEval2007

nlp

http://nlp.cs.swarthmore.edu/semeval/index.shtml

ACE2007

nlp

http://www.nist.gov/speech/tests/ace/ace07/index.htm

Memos - tfidf.net

http://tfidf.net/memos/ Manabu Sassano さん。

COLING-ACL 2006 Keihanna Workshop

http://www.kecl.ntt.co.jp/mtg/event/kws2006/ 日本のNLP の80%は、けいはんなでできています。

Adaptive language modeling -- A maximum entropy approach (Rosenfield, 1994)

nlp

http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/www/papers/me-thesis-tr-94-138.pdf [2006-01-18-1]の元。

Isotani -- Speech Recognition Using a Stochastic Language Model Integrating Local and Global Constraints

http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例

Collocation extraction

http://listserv.linguistlist.org/cgi-bin/wa?a1=ind0608&l=corpora#6 「コロケーション自動抽出手法は何がいい?」 Corpora List より。

Sequential Document representations and Simplicial Curves

http://www.stat.purdue.edu/~lebanon/papers/curverep.pdf yet another bag-of-words relaxation via 持橋さん

Statistical Natural Language Processing Reading List

http://ciir.cs.umass.edu/~fuchun/readlist_all/readlist/index.html mirror?

Makefile for launching Palmkit

Palmkit (= CMU-Cambridge SLM Toolkit) は、 各ステップの処理が別コマンドになっていて、 ユーザーが好きなスクリプトで走らせられるようになっている。評価実験をするときには、色々な訓練データを使ってやりたい。 新規データの追加をしたときには、それ…

SLM Toolkit による N-gram 頻度の計数

SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。 (idngram, n=2,3) CMU の方は チェインハッシュ、 Pamkit は内部ハッシュを使っている。そのうちベンチマークしてみよう。test.text a b r a c a d a b r a test.idngram (ascii) 1 2 5 …