2009-03-01から1ヶ月間の記事一覧

Javaで実装された形態素解析器 GoSen

GoSen がよさげなので使ってみる。プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morpho…

英語の単語を原形に戻す WordNet-based lemmatizer

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾…

ruby 1.9 test/unit/ui/console/testrunner のバグ

現在の ubuntu 8.10 でインストールできる ruby1.9 は test/unit がうまく動かない。 (バージョン:ruby 1.9.0 (2008-06-20 revision 17482)) 具体的にはこういうエラーが出る。 /usr/lib/ruby/1.9.0/test/unit/ui/console/testrunner.rb:94:in `sub!': ca…