Javaで実装された形態素解析器 GoSen

GoSen がよさげなので使ってみる。

プロジェクトホームページ(オリジナルは到達不能
http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen

GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab.
GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folded back into the base Sen project; unfortunately, the original authors of Sen seem to be uncontactable at the present time.

Sen の作者も到達不能

ソースは sourceforge で生きている。
http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/

git-svn clone https://itadaki.svn.sourceforge.net/svnroot/itadaki/GoSen GoSen

とりあえずプロジェクトルートで

ant

辞書のダウンロード&コンパイル

cd testdata/dictionary/; ant

プロジェクトルートでGUI起動

java -cp $CLASSPATH:bin:gosen-1.0beta.jar examples.ReadingProcessorDemo testdata/dictionary/dictionary.xml

javadoc もある。

ant javadoc

gcj-1.5 だと

[javadoc] java.lang.RuntimeException: Only he following values are currently supported for option -source: 1.2, 1.3, 1.4.

このようなエラーがでたので、 build.xml の source="1.5" というアトリビュートを削除して生成。

via
http://d.hatena.ne.jp/gnarl/20080912/1221189985
http://pc11.2ch.net/test/read.cgi/tech/1106606281/

  • -

(2009-04-16T22:40:30+0900)
Senからのクラスの読み替えなど
http://hide-t.vox.com/library/post/gosen.html

使っている人
http://tf0054.blogspot.com/2009/04/java-gosen.html