Javaで実装された形態素解析器 GoSen
GoSen がよさげなので使ってみる。
プロジェクトホームページ(オリジナルは到達不能)
http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen
GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab.
GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folded back into the base Sen project; unfortunately, the original authors of Sen seem to be uncontactable at the present time.
Sen の作者も到達不能。
ソースは sourceforge で生きている。
http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/
git-svn clone https://itadaki.svn.sourceforge.net/svnroot/itadaki/GoSen GoSen
とりあえずプロジェクトルートで
ant
辞書のダウンロード&コンパイル
cd testdata/dictionary/; ant
プロジェクトルートでGUI起動
java -cp $CLASSPATH:bin:gosen-1.0beta.jar examples.ReadingProcessorDemo testdata/dictionary/dictionary.xml
javadoc もある。
ant javadoc
gcj-1.5 だと
[javadoc] java.lang.RuntimeException: Only he following values are currently supported for option -source: 1.2, 1.3, 1.4.
このようなエラーがでたので、 build.xml の source="1.5" というアトリビュートを削除して生成。
via
http://d.hatena.ne.jp/gnarl/20080912/1221189985
http://pc11.2ch.net/test/read.cgi/tech/1106606281/
- -
(2009-04-16T22:40:30+0900)
Senからのクラスの読み替えなど
http://hide-t.vox.com/library/post/gosen.html