wordnet フォーマット

data.* は 1行が 1 synset に対応する同義語辞書ファイル。
たとえばこの行

08499057 15 n 02 atmosphere 0 air 1 007 @ 08630039 n 0000 #p 09270894 n 0000 + 02831736 a 0101 + 02831736 a 0102 ~ 08502317 n 0000 %p 08555569 n 0000 %p 08588916 n 0000 | the mass of air surrounding the Earth; "there was great heat as the comet entered the atmosphere"; "it was exposed to the air"

の先頭部分は、カラムごとに次の意味。

08499057

このファイルでのこの synset 行のバイトオフセット。このオフセットは、synset に対する ID としても使われる。

15

このsynsetを含んでいるlexicographer file のID。たぶん普通は使わない。

n

POS。次の五種類:

n NOUN
v VERB
a ADJECTIVE
s ADJECTIVE SATELLITE
r ADVERB

02

synset に入っている単語の数。

atmosphere 0
air 1

このsynset が "atomosphere" の語義0と "air" の語義1からなることを示す。この部分が同義語辞書としてもっとも重要な情報。

007

以降に記述される、この synset から 別の synset への関係の数。
関係としては、上位語、全体語などがある。
関係は、"@"(上位) "~" (下位)などのシンボルとsynset offset の組で記述される。
↓シンボルのドキュメント
http://wordnet.princeton.edu/man/wninput.5WN.html#sect3

↓ data.(noun|adj)ファイルの書式についてのドキュメント
http://wordnet.princeton.edu/man/wndb.5WN#sect3