nlp
GoSen がよさげなので使ってみる。プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morpho…
nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾…
Multiword Expressions: Multiword Expressions http://multiword.sourceforge.net/ACL SIGLEX http://www.clres.com/siglex.html
http://karlmicha.googlepages.com/lg 作ってたのとほとんど同じものがあった。
http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…
http://cl.naist.jp/~eric-n/ubuntu-nlp/ NAISTのericさんによる Ubuntu 用リポジトリ。
http://nltk.sourceforge.net/index.php/main_page 各種コーパスやWordNetのパーザーがPythonで提供されている。
http://nlp.iit.tsukuba.ac.jp/must/ Matsuyoshi-Utsuro-Satoh-TsuchiyaでMUST複合辞の表層表現のリストと、 その正例・負例へのポインタ(毎日新聞記事)リストとして提供されている。 ...
AIチャレンジ研究会24回の資料の峯松先生の論文。「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、 N個の点集合が作る形とNxNの距離行列の等価性。 参考:距離 - 朱鷺の杜Wiki注目している集合が閉じてい…
http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/22-2.html クローラ HTMLパーサ 言語処理ツール のブックマーク perl -MEncode::Guess -e'$b = join q{}, <>; $e=guess_encoding($b, qw/euc-jp shiftjis 7bit-jis utf-8/); print $e->name, "\n"; prin…
http://www.cs.wisc.edu/~jerryzhu/ Semi-supervised learning 専門家。 NLPよりでもある。
http://lab0.com/ 医療情報NLPの人
http://www.cs.umass.edu/~fuchun/publication/thesis.pdf Fuchun Peng さんの博士論文ふたつめ [2006-01-24-3]
http://www.cs.fit.edu/~mmahoney/dissertation/corpus.html
http://zelch.dnsalias.org/mori/
http://catalog.elra.info/product_info.php?cpath=42_43&products_id=438&oscsid=c2614983811ba7fb437c21c9438bdd79 Text corpus of "Le Monde"
http://liinwww.ira.uka.de/bibliography/ai/automated.text.categorization.html
http://www.loebner.net/prizef/loebner-prize.html Turing test で競うコンテスト
http://www.chatterboxchallenge.com/
http://nlp.cs.swarthmore.edu/semeval/index.shtml
http://www.nist.gov/speech/tests/ace/ace07/index.htm
http://tfidf.net/memos/ Manabu Sassano さん。
http://www.kecl.ntt.co.jp/mtg/event/kws2006/ 日本のNLP の80%は、けいはんなでできています。
http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/www/papers/me-thesis-tr-94-138.pdf [2006-01-18-1]の元。
http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例
http://listserv.linguistlist.org/cgi-bin/wa?a1=ind0608&l=corpora#6 「コロケーション自動抽出手法は何がいい?」 Corpora List より。
http://www.stat.purdue.edu/~lebanon/papers/curverep.pdf yet another bag-of-words relaxation via 持橋さん
http://ciir.cs.umass.edu/~fuchun/readlist_all/readlist/index.html mirror?
Palmkit (= CMU-Cambridge SLM Toolkit) は、 各ステップの処理が別コマンドになっていて、 ユーザーが好きなスクリプトで走らせられるようになっている。評価実験をするときには、色々な訓練データを使ってやりたい。 新規データの追加をしたときには、それ…
SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。 (idngram, n=2,3) CMU の方は チェインハッシュ、 Pamkit は内部ハッシュを使っている。そのうちベンチマークしてみよう。test.text a b r a c a d a b r a test.idngram (ascii) 1 2 5 …