2008-01-01から1年間の記事一覧

github

.ssh/config に記載 Host github.com User myname Hostname ssh.github.com Port 443 コミットログ用の名前とメールアドレス git config user.name myname git config user.email myname@example.com インポート元ディレクトリでローカルリポジトリ作成 git …

Inkscape で tex 数式

textext という Inkscape プラグインが便利。 pstoedit をインストールしておき、 ダウンロードしたライブラリ(pythonスクリプトと仕様を記述する.inxファイル)を .inkscape/extensions に置くとメニューの「エフェクト」にtex textが現れる。ダブルクリッ…

zsh 変数代入による拡張子削除などの書き方

# variable substitution somevar="bu&^*ck" # variable with mucky characters print ${somevar//[^[:alnum:]]/_} # replace all non-alphanumerics with _ echo ${file##*/} # echo just the file name echo ${texfilepath%/*.*} # echo just the path ech…

LiveUSBPersistent Ubuntu

まず remastersys で livecd の ISOイメージを作る。qemu でテスト qemu-img create disk.img 8G qemu -cdrom custom.iso -hda disk.img -vnc :1 最低でもcdromでの起動は確認し、余裕があれば hda へのインストール→cdrom外して起動まで確認。USBメモリへの…

擬似負例を利用した、文脈に応じた同義語集合からの選択

(discourse sensitive paraphrasing) 関連研究 Context Sensitive Paraphrasing with a Global Unsupervised Classifier 前後Nグラムの表層・品詞・係り受けを用いたパターンに対応する弱学習器でつくった擬似正解でパラフレーズ分類器を訓練。 我々はさらに…

文体隠れクラスをもつ談話依存言い換え選択

言い換え集合に対する native/non-native 分類を拡張し、 隠れクラス化することにより、文脈にあったクラスを選択してよりよい言い換えを選択する。 - (2008-12-30T12:33:43+0900) けっきょくのところユーザーが望んでいる文体の集合は事前に定義することが…

basic 認証

認証用文字列は下記のどれかで作れる。(foo ユーザー、barパスワードの場合) 環境によって存在するコマンドが違うので、使えるものを使う。 (シェルの履歴に残るのが気になる場合、echo ではなくcat でやるべきかも) % echo -n 'foo:bar' | base64 -e % echo…

two column table

tex

\documentclass[twocolumn]{article} % controling how much of a page can be occupied by floats % \renewcommand{\topfraction}{1.0} % \renewcommand{\bottomfraction}{1.0} % \renewcommand{\dbltopfraction}{1.0} % \renewcommand{\textfraction}{0.01…

raw wav 変換

sox -t .raw -r 16000 -s -w -c 1 file.raw -t .wav file.wav

Julius による大語彙連続音声認識のメモ

sr

rawfile での入力音声はwav形式なので、 持っているファイルが raw だったら変換しておく。 http://julius.sourceforge.jp/forum/viewtopic.php?f=14&t=7 ヘッダ無し(RAW)の音声ファイル入力は、16bit (signed short) の、BIG ENDIAN 形式である必要があり…

wikipediaクリーニング

Wikipediaにあるテンプレートの多くは、テキストの一部ではないので、単に除去できる(図表と同じ)。 (2008-10-22T13:07:19+0900) だが、一部のテンプレート({{和暦}}など)はテキストを出力する目的で使われており、 その出力結果は文章の一部となってい…

現時点で ruby-1.9 は使いにくいので ruby-1.8.7

ruby-1.9 のいいところ(injectがreduceで呼べるとか) http://blog.afoolishmanifesto.com/archives/49 はだいぶ ruby-1.8.7 にバックポートされている反面、1.8 のよく使う機能(base64とか)が 1.9 に入っていない。 ので 1.8.7 を使う

rwなloopbackファイルシステムの作り方

# ブロックサイズ 1Mbyte, ブロック数 500 で作成(500Mbyteのディスクになる) dd if=/dev/urandom of=/cygdrive/e/fonts.img bs=1M count=500

Java で文字の Unicode コードブロックを調べる

import java.io.*; public class A { public static void main(String[] args) throws IOException { BufferedReader reader = new BufferedReader(new InputStreamReader(System.in)); String line; while ( (line = reader.readLine()) != null ) { for ( …

hcrf (HCRF13d) パッケージのためのlinuxパッチ

patch -p5 で適用 diff -u -r ./HCRF13d/makefile64 ./HCRF/makefile64 --- ./HCRF13d/makefile64 2007-10-18 17:20:46.000000000 +0900 +++ ./HCRF/makefile64 2008-07-08 17:31:08.000000000 +0900 @@ -1,10 +1,12 @@ -# +# -*- makefile -*- # Author: Mi…

use したモジュールの位置を出力する

perlは一度読んだファイルをこの変数の中に押し込む。たとえばこんな感じ。 % perl -MEncode -le 'print "$_:$INC{$_}" for sort keys %INC' Encode.pm:/usr/local/lib/perl5/5.10.0/darwin-thread-multi-2level/Encode.pm Encode/Alias.pm:/usr/local/lib/p…

Programming Collective Intelligence

http://1a26.com/pdf/programming/programming%20collective%20intelligence.pdf

large set of target labeling

lm

ラベルの汎化(クラスタリング)が必要伝統的な class-based model による

matplotlib をインストール

matlab 風のDSLでグラフを描けるようにするライブラリ。 http://www.scipy.org/Installing_SciPy/Linux 上記を参考に、ATLAS, numpy, matplotlib をインストールした。 ATLASはインタラクティブな設定に加えて、Makefileの一部に -fPICを追加。 (そもそも、…

git から svn を透過的に使う

Tracking and contributing to the trunk of a Subversion-managed project: # Clone a repo (like git clone): git-svn clone http://svn.foo.org/project/trunk # Enter the newly cloned directory: cd trunk # You should be on master branch, double-c…

「Ruby 1.9 を語る」 by まつもとゆきひろ

http://mono.kmc.gr.jp/~yhara/d/?date=20071215#p03 String * String#eachが廃止された。つまり、String自身はもうEnumerableではない。 * なぜか? o String#eachは、何について繰り返すべきか自明でない(行?文字?バイト?) o 1.9では、明示的にいずれか…

Ubuntu でパッケージを手動インストール

1. packages.ubuntu.com で検索し、XXX.deb ファイルを入手 2. sudo dpkg -i XXX..deb

"HTML-Element" sucks

Perl はオブジェクトのメモリ管理に参照カウント方式をとっている。 つまり、オブジェクトが参照されている数、が0になったらオブジェクトを解放する。 この方式には、循環参照があるオブジェクト集合を解放できないという問題がある。 循環参照のあるオブジ…

語彙系コミュニティ

nlp

Multiword Expressions: Multiword Expressions http://multiword.sourceforge.net/ACL SIGLEX http://www.clres.com/siglex.html

STRAIGHT trial page

http://www.wakayama-u.ac.jp/~kawahara/straighttrial/ STRAIGHT は音声分析・合成ツール。 人間の音声を可読性の高い成分に分解し、再構成することができる。STRAIGHT linksにあるように、ここ数年国内外の多くの音声研究者が利用している。

「物理モデルによる音声合成」と比べてみた言語のモデルの現状

「音声にはモデルがあるけれど言語にはない」 という言葉がずっと気になっていた。 最近になって、少し意味が分かってきたような気がする。ここで音声にあるモデルというのは、 基本的に「発声に関わる神経と筋肉のモデル」である。 もちろん発声という行動…

Pattern Matching Pointers (maintained by Stefano Lonardi)

http://www.cs.ucr.edu/~stelo/pattern.html#resources 文字列アルゴリズム、情報検索周辺の学会、本、ソフトウェア

crontab(5) -- tables for driving cron - Linux man page

http://linux.die.net/man/5/crontab all data after the first % will be sent to the command as standard input. % を含むコマンドは crontab に書けない。 \% でエスケープする必要がある。

LETOR -- Benchmark Dataset for Learning to Rank

http://research.microsoft.com/users/letor/ "learning to rank" タスクのデータセットが公開されている。

Jun Wu, Maximum Entropy Langauge Modeling with Non-Local Dependencies

http://www.cs.jhu.edu/~junwu/publications.html文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、