CSJ からの形態素情報の読み取りをしたいときに参照すべきマニュアル

『日本語話し言葉コーパス』の概観
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf
とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。
講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるようになっている。

フィラータグ 「転記テキストの仕様」
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/transcription.pdf
CSJの転記ファイル (SDB) とXMLファイルに含まれるフィラーについてのアノテーション( (F えー)など)の一覧。
無視したいもの、取り出したいものが用途によって分かれると思う。
XMLでもフィラータグは構造化されておらず、この仕様にかかれた書式の文字列として表現されている。

短単位・長単位データマニュアル
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/wdb.pdf
SDBファイルは1行が1短単位の情報を表すファイル。
長単位の先頭にある短単位に限り、長単位情報が末尾にかかれる。

XML仕様
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/xml.pdf
SDBファイルはXMLから抽出して作成されたものであり、全アノテーションXMLファイルの方にかかれている。
特に、品詞がほしい場合はXMLを参照する。

マニュアル一覧
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/

github

.ssh/config に記載

Host github.com
User myname
Hostname ssh.github.com
Port 443

コミットログ用の名前とメールアドレス

git config user.name myname
git config user.email myname@example.com

インポート元ディレクトリでローカルリポジトリ作成

git init
git config user.name myname
git config user.email myname@example.com
git add *
git commit

リモートに送る

git remote add origin git@github.com:xxx/xxx.git
git push origin master

別のローカルの場所に展開する

git clone git@github.com:xxx/xxx.git

Inkscape で tex 数式

textext という Inkscape プラグインが便利。
pstoedit をインストールしておき、
ダウンロードしたライブラリ(pythonスクリプトと仕様を記述する.inxファイル)を
.inkscape/extensions に置くとメニューの「エフェクト」にtex textが現れる。

ダブルクリックするとバグるけど、これはtextextのページにかかれている、
ubuntuのpstoeditのバグのせいかも。
ダブルクリックしなければ動くのでとりあえず放置。

zsh 変数代入による拡張子削除などの書き方

# variable substitution
somevar="bu&^*ck" # variable with mucky characters
print ${somevar//[^[:alnum:]]/_} # replace all non-alphanumerics with _
echo ${file##*/} # echo just the file name
echo ${texfilepath%/*.*} # echo just the path
echo ${file%.*} # strip file extension
echo $file:r # strip file extension
echo ${0##*[!0-9]} # strip all but trailing digit from filename $0
echo ${(M)0%%<->} # strip all but trailing digit from filename
file=${1/\//C:\/} # substitute / with c:/ ANYWHERE in string
file=${1/#\//C:\/} # substitute / with c:/ Beginning of string
file=${1/%\//C:\/} # substitute / with c:/ End of string
# note # & % are using to match beginning and end