wordnet フォーマット
data.* は 1行が 1 synset に対応する同義語辞書ファイル。
たとえばこの行
08499057 15 n 02 atmosphere 0 air 1 007 @ 08630039 n 0000 #p 09270894 n 0000 + 02831736 a 0101 + 02831736 a 0102 ~ 08502317 n 0000 %p 08555569 n 0000 %p 08588916 n 0000 | the mass of air surrounding the Earth; "there was great heat as the comet entered the atmosphere"; "it was exposed to the air"
の先頭部分は、カラムごとに次の意味。
08499057
このファイルでのこの synset 行のバイトオフセット。このオフセットは、synset に対する ID としても使われる。
15
このsynsetを含んでいるlexicographer file のID。たぶん普通は使わない。
n
POS。次の五種類:
n NOUN
v VERB
a ADJECTIVE
s ADJECTIVE SATELLITE
r ADVERB
02
synset に入っている単語の数。
atmosphere 0
air 1
このsynset が "atomosphere" の語義0と "air" の語義1からなることを示す。この部分が同義語辞書としてもっとも重要な情報。
007
以降に記述される、この synset から 別の synset への関係の数。
関係としては、上位語、全体語などがある。
関係は、"@"(上位) "~" (下位)などのシンボルとsynset offset の組で記述される。
↓シンボルのドキュメント
http://wordnet.princeton.edu/man/wninput.5WN.html#sect3
↓ data.(noun|adj)ファイルの書式についてのドキュメント
http://wordnet.princeton.edu/man/wndb.5WN#sect3