Javaで実装された形態素解析器 GoSen

nlp mima

GoSen がよさげなので使ってみる。プロジェクトホームページ（オリジナルは到達不能） http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morpho…

2009-03-03

英語の単語を原形に戻す WordNet-based lemmatizer

prfr nlp ruby

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基品詞ごとの接尾…

2008-03-13

語彙系コミュニティ

nlp

Multiword Expressions: Multiword Expressions http://multiword.sourceforge.net/ACL SIGLEX http://www.clres.com/siglex.html

2007-12-21

N-gram Template Library

cxx nlp

http://karlmicha.googlepages.com/lg 作ってたのとほとんど同じものがあった。

2007-08-06

mecab/swig で形態素のオリジナルテキスト上での位置を得る

segmentation nlp

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が元のテキストの何バイト目から何バイト目に出現したか分かるので、元のテキスト中にスペースがあ…

2007-07-24

The Ubuntu NLP Repository

linux nlp net

http://cl.naist.jp/~eric-n/ubuntu-nlp/ NAISTのericさんによる Ubuntu 用リポジトリ。

2007-07-07

Natural Language Toolkit

nlp programming net

http://nltk.sourceforge.net/index.php/main_page 各種コーパスやWordNetのパーザーがPythonで提供されている。

2007-05-11

MUST1 -- 日本語複合辞用例データベース v1.0

nlp lx net

http://nlp.iit.tsukuba.ac.jp/must/ Matsuyoshi-Utsuro-Satoh-TsuchiyaでMUST複合辞の表層表現のリストと、その正例・負例へのポインタ（毎日新聞記事）リストとして提供されている。 ...

2007-03-29

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得

audio sr nlp

AIチャレンジ研究会２４回の資料の峯松先生の論文。「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、 N個の点集合が作る形とNxNの距離行列の等価性。参考：距離 - 朱鷺の杜Wiki注目している集合が閉じてい…

2007-03-06

私のブックマーク「Web内容マイニング」人工知能学会誌, vol.22, no.2 (2007)

nlp net

http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/22-2.html クローラ HTMLパーサ言語処理ツールのブックマーク perl -MEncode::Guess -e'$b = join q{}, <>; $e=guess_encoding($b, qw/euc-jp shiftjis 7bit-jis utf-8/); print $e->name, "\n"; prin…

2007-02-13

Xiaojin Zhu (Jerry Zhu)

people nlp learning net

http://www.cs.wisc.edu/~jerryzhu/ Semi-supervised learning 専門家。 NLPよりでもある。

2007-01-23

Eiji ARAMAKI

people nlp bio net

http://lab0.com/ 医療情報NLPの人

2007-01-22

Language Independent Text Learning with Statistical n-Gram Language Modeling

nlp net

http://www.cs.umass.edu/~fuchun/publication/thesis.pdf Fuchun Peng さんの博士論文ふたつめ [2006-01-24-3]

2007-01-12

USENET as a Text Corpus

nlp corpus net

http://www.cs.fit.edu/~mmahoney/dissertation/corpus.html

2006-11-24

Mori Shinsuke

nlp people

http://zelch.dnsalias.org/mori/

2006-11-23

ELRA Catalogue of Language Resources

nlp net

http://catalog.elra.info/product_info.php?cpath=42_43&products_id=438&oscsid=c2614983811ba7fb437c21c9438bdd79 Text corpus of "Le Monde"

2006-11-23

Bibliography on Automated Text Categorization

nlp learning net

http://liinwww.ira.uka.de/bibliography/ai/automated.text.categorization.html

2006-11-22

Loebner Prize Home Page

nlp net

http://www.loebner.net/prizef/loebner-prize.html Turing test で競うコンテスト

2006-11-21

The Chatterbox Challenge

nlp

http://www.chatterboxchallenge.com/

2006-11-17

SemEval2007

nlp

http://nlp.cs.swarthmore.edu/semeval/index.shtml

2006-11-17

ACE2007

nlp

http://www.nist.gov/speech/tests/ace/ace07/index.htm

2006-10-16

Memos - tfidf.net

nlp people net

http://tfidf.net/memos/ Manabu Sassano さん。

2006-09-28

COLING-ACL 2006 Keihanna Workshop

nlp net

http://www.kecl.ntt.co.jp/mtg/event/kws2006/ 日本のNLP の80%は、けいはんなでできています。

2006-09-05

Adaptive language modeling -- A maximum entropy approach (Rosenfield, 1994)

nlp

http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/www/papers/me-thesis-tr-94-138.pdf [2006-01-18-1]の元。

2006-09-05

Isotani -- Speech Recognition Using a Stochastic Language Model Integrating Local and Global Constraints

nlp sr lm net

http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例

2006-08-03

Collocation extraction

lx nlp net

http://listserv.linguistlist.org/cgi-bin/wa?a1=ind0608&l=corpora#6 「コロケーション自動抽出手法は何がいい？」 Corpora List より。

2006-08-01

Sequential Document representations and Simplicial Curves

nlp net

http://www.stat.purdue.edu/~lebanon/papers/curverep.pdf yet another bag-of-words relaxation via 持橋さん

2006-07-10

Statistical Natural Language Processing Reading List

nlp net

http://ciir.cs.umass.edu/~fuchun/readlist_all/readlist/index.html mirror?

2006-07-08

Makefile for launching Palmkit

nlp lm

Palmkit (= CMU-Cambridge SLM Toolkit) は、各ステップの処理が別コマンドになっていて、ユーザーが好きなスクリプトで走らせられるようになっている。評価実験をするときには、色々な訓練データを使ってやりたい。新規データの追加をしたときには、それ…

2006-07-08

SLM Toolkit による N-gram 頻度の計数

nlp lm

SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。 (idngram, n=2,3) CMU の方はチェインハッシュ、 Pamkit は内部ハッシュを使っている。そのうちベンチマークしてみよう。test.text a b r a c a d a b r a test.idngram (ascii) 1 2 5 …