日本語組版 Perl ライブラリ
http://hp1.jonex.ne.jp/~nakajima.yasushi/
tex ライクな構造の入力でPDFを生成するライブラリ。
関数 argmax の表記を定義する
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
CSJ からの形態素情報の読み取りをしたいときに参照すべきマニュアル
『日本語話し言葉コーパス』の概観
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf
とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。
講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるようになっている。
フィラータグ 「転記テキストの仕様」
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/transcription.pdf
CSJの転記ファイル (SDB) とXMLファイルに含まれるフィラーについてのアノテーション( (F えー)など)の一覧。
無視したいもの、取り出したいものが用途によって分かれると思う。
XMLでもフィラータグは構造化されておらず、この仕様にかかれた書式の文字列として表現されている。
短単位・長単位データマニュアル
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/wdb.pdf
SDBファイルは1行が1短単位の情報を表すファイル。
長単位の先頭にある短単位に限り、長単位情報が末尾にかかれる。
XML仕様
http://www.kokken.go.jp/katsudo/seika/corpus/public/manuals/xml.pdf
SDBファイルはXMLから抽出して作成されたものであり、全アノテーションはXMLファイルの方にかかれている。
特に、品詞がほしい場合はXMLを参照する。
マニュアル一覧
http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/
github
.ssh/config に記載
Host github.com
User myname
Hostname ssh.github.com
Port 443
コミットログ用の名前とメールアドレス
git config user.name myname
git config user.email myname@example.com
git init
git config user.name myname
git config user.email myname@example.com
git add *
git commit
リモートに送る
git remote add origin git@github.com:xxx/xxx.git
git push origin master
別のローカルの場所に展開する
git clone git@github.com:xxx/xxx.git
zsh 変数代入による拡張子削除などの書き方
# variable substitution
somevar="bu&^*ck" # variable with mucky characters
print ${somevar//[^[:alnum:]]/_} # replace all non-alphanumerics with _
echo ${file##*/} # echo just the file name
echo ${texfilepath%/*.*} # echo just the path
echo ${file%.*} # strip file extension
echo $file:r # strip file extension
echo ${0##*[!0-9]} # strip all but trailing digit from filename $0
echo ${(M)0%%<->} # strip all but trailing digit from filename
file=${1/\//C:\/} # substitute / with c:/ ANYWHERE in string
file=${1/#\//C:\/} # substitute / with c:/ Beginning of string
file=${1/%\//C:\/} # substitute / with c:/ End of string
# note # & % are using to match beginning and end