CSJ からの形態素情報の読み取りをしたいときに参照すべきマニュアル

『日本語話し言葉コーパス』の概観
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf
とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。
講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるようになっている。

フィラータグ 「転記テキストの仕様」
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/transcription.pdf
CSJの転記ファイル (SDB) とXMLファイルに含まれるフィラーについてのアノテーション( (F えー)など)の一覧。
無視したいもの、取り出したいものが用途によって分かれると思う。
XMLでもフィラータグは構造化されておらず、この仕様にかかれた書式の文字列として表現されている。

短単位・長単位データマニュアル
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/wdb.pdf
SDBファイルは1行が1短単位の情報を表すファイル。
長単位の先頭にある短単位に限り、長単位情報が末尾にかかれる。

XML仕様
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/xml.pdf
SDBファイルはXMLから抽出して作成されたものであり、全アノテーションXMLファイルの方にかかれている。
特に、品詞がほしい場合はXMLを参照する。

マニュアル一覧
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/