wanderlust で GMail 風、新着レス順にソート

~/.wl に追加しておくと、 Summary モード -> "S" の候補に "reply-date" が出る。 これを選んでやると Summary が GMail 風にソートされる。 http://gist.github.com/153020 (defun wl-summary-overview-entity-compare-by-reply-date (a b) "Compare entit…

CRFでない最大エントロピー法をgibbs sampling で解く

Finkel+2005, Incorporating non-local information into Information Extraction Systems by Gibbs sampling最大エントロピーモデル ・素性値の経験分布での期待値とモデルによる期待値が一致するという制約 ・制約から対数線形モデルを導出 ・尤度関数の線…

Kernel Averaged Perceptron の話

要約すると、 カーネルパーセプトロンを使うくらいならサポートベクターマシンを使ったほうがいい という話。 以下、パーセプトロンとかカーネルとか基本的なところばかり書きます。 <パーセプトロン> 正負ラベルを予測する二値分類を行うパーセプトロンの…

Javaで実装された形態素解析器 GoSen

GoSen がよさげなので使ってみる。プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morpho…

英語の単語を原形に戻す WordNet-based lemmatizer

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾…

ruby 1.9 test/unit/ui/console/testrunner のバグ

現在の ubuntu 8.10 でインストールできる ruby1.9 は test/unit がうまく動かない。 (バージョン:ruby 1.9.0 (2008-06-20 revision 17482)) 具体的にはこういうエラーが出る。 /usr/lib/ruby/1.9.0/test/unit/ui/console/testrunner.rb:94:in `sub!': ca…

論文や学術雑誌での欧文略語

ISSN によるリスト(英語、フランス語、ドイツ語をはじめとして多くのヨーロッパ言語をふくむ) http://www.issn.org/2-22661-LTWA-online.phpJSTによる日本語の学術情報流通のための指針:雑誌名 http://sist-jst.jp/handbook/sist05_2007/main.htmJSTによ…

StringBuffer の速さ、String.replace の遅さ

一つの String に対していろいろな置換を行った結果を得たいとき、 String.replace を繰り返し適用すると、無駄な時間がかかる。 これは、 String オブジェクトが置換の回数だけ生成される String.replace が正規表現置換 (String.replaceAll 相当) を内部で…

wordnet フォーマット

data.* は 1行が 1 synset に対応する同義語辞書ファイル。 たとえばこの行 08499057 15 n 02 atmosphere 0 air 1 007 @ 08630039 n 0000 #p 09270894 n 0000 + 02831736 a 0101 + 02831736 a 0102 ~ 08502317 n 0000 %p 08555569 n 0000 %p 08588916 n 0000…

git の個人的慣習としてつくるレポジトリとブランチの初期設定

フォークの場合、元のレポジトリを ssh:/gw/~uuu/git-repos/xxx に clone しておく。 新規の場合、同じ場所に単に空のレポジトリを作る。・レポジトリ origin: 非公開の中央レポジトリ、基本的に一人用 git clone ssh://gw/~uuu/git-repos/xxx public: (公…

git branch and merge

"dev" というブランチを作る。 git branch dev dev に移動 git checkout dev いろいろかきかえる git commit ブランチ前にもどる git checkout master

git-svn でレポジトリ変換

git clone svn+ssh://.... newdir で変換。 svn では複数のプロジェクトが一つのレポジトリにあったりするので、 ルートディレクトリ直下のディレクトリをひとつのgitレポジトリとするのがいい。初期状態だとgcかかってないので、かけること。更新は git-svn…

git undo

コミットログの編集 git commit --amend local repository を前回のコミット前の状態に戻す git reset --soft HEAD^ ワークスペース、index, local repository を前回のコミット時の状態に戻す (更新された実体ファイルも戻す) git reset --hard

SizedQueue

class SizedQueue < Array def initialize(n) @N = n @i = 0 end def push(x) ret = self[@i] self[@i] = x @i = (@i+1) % @N return ret end def pop() old_i = @i @i = (@i+@N-1) % N return self[old_i] end end

centos rails & mysqlclient

gem install mysql -- --with-mysql-config=/usr/bin/mysql_config

日本語組版 Perl ライブラリ

http://hp1.jonex.ne.jp/~nakajima.yasushi/ tex ライクな構造の入力でPDFを生成するライブラリ。

関数 argmax の表記を定義する

\newcommand{\argmin}{\operatornamewithlimits{argmin}} http://d.hatena.ne.jp/audioswitch/20090111/1231644867

CSJ からの形態素情報の読み取りをしたいときに参照すべきマニュアル

sr

『日本語話し言葉コーパス』の概観 http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。 講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるよ…

github

.ssh/config に記載 Host github.com User myname Hostname ssh.github.com Port 443 コミットログ用の名前とメールアドレス git config user.name myname git config user.email myname@example.com インポート元ディレクトリでローカルリポジトリ作成 git …

Inkscape で tex 数式

textext という Inkscape プラグインが便利。 pstoedit をインストールしておき、 ダウンロードしたライブラリ(pythonスクリプトと仕様を記述する.inxファイル)を .inkscape/extensions に置くとメニューの「エフェクト」にtex textが現れる。ダブルクリッ…

zsh 変数代入による拡張子削除などの書き方

# variable substitution somevar="bu&^*ck" # variable with mucky characters print ${somevar//[^[:alnum:]]/_} # replace all non-alphanumerics with _ echo ${file##*/} # echo just the file name echo ${texfilepath%/*.*} # echo just the path ech…

LiveUSBPersistent Ubuntu

まず remastersys で livecd の ISOイメージを作る。qemu でテスト qemu-img create disk.img 8G qemu -cdrom custom.iso -hda disk.img -vnc :1 最低でもcdromでの起動は確認し、余裕があれば hda へのインストール→cdrom外して起動まで確認。USBメモリへの…

擬似負例を利用した、文脈に応じた同義語集合からの選択

(discourse sensitive paraphrasing) 関連研究 Context Sensitive Paraphrasing with a Global Unsupervised Classifier 前後Nグラムの表層・品詞・係り受けを用いたパターンに対応する弱学習器でつくった擬似正解でパラフレーズ分類器を訓練。 我々はさらに…

文体隠れクラスをもつ談話依存言い換え選択

言い換え集合に対する native/non-native 分類を拡張し、 隠れクラス化することにより、文脈にあったクラスを選択してよりよい言い換えを選択する。 - (2008-12-30T12:33:43+0900) けっきょくのところユーザーが望んでいる文体の集合は事前に定義することが…

basic 認証

認証用文字列は下記のどれかで作れる。(foo ユーザー、barパスワードの場合) 環境によって存在するコマンドが違うので、使えるものを使う。 (シェルの履歴に残るのが気になる場合、echo ではなくcat でやるべきかも) % echo -n 'foo:bar' | base64 -e % echo…

two column table

tex

\documentclass[twocolumn]{article} % controling how much of a page can be occupied by floats % \renewcommand{\topfraction}{1.0} % \renewcommand{\bottomfraction}{1.0} % \renewcommand{\dbltopfraction}{1.0} % \renewcommand{\textfraction}{0.01…

raw wav 変換

sox -t .raw -r 16000 -s -w -c 1 file.raw -t .wav file.wav

Julius による大語彙連続音声認識のメモ

sr

rawfile での入力音声はwav形式なので、 持っているファイルが raw だったら変換しておく。 http://julius.sourceforge.jp/forum/viewtopic.php?f=14&t=7 ヘッダ無し(RAW)の音声ファイル入力は、16bit (signed short) の、BIG ENDIAN 形式である必要があり…

wikipediaクリーニング

Wikipediaにあるテンプレートの多くは、テキストの一部ではないので、単に除去できる(図表と同じ)。 (2008-10-22T13:07:19+0900) だが、一部のテンプレート({{和暦}}など)はテキストを出力する目的で使われており、 その出力結果は文章の一部となってい…

現時点で ruby-1.9 は使いにくいので ruby-1.8.7

ruby-1.9 のいいところ(injectがreduceで呼べるとか) http://blog.afoolishmanifesto.com/archives/49 はだいぶ ruby-1.8.7 にバックポートされている反面、1.8 のよく使う機能(base64とか)が 1.9 に入っていない。 ので 1.8.7 を使う