2007-02-01から1ヶ月間の記事一覧

三森ゆりか, 外国語を身につけるための日本語レッスン

Interpretation(テクストの分析と解釈・批判)のすすめ。主語が推測可能なゼロ主語文をかけるようになるために、 主語を書いてから消す訓練。全体像から詳細へいく論理的説明文 結論をいってからそれを支える根拠を言う討論 ナンバリング:最初にアイテムの…

「DPマッチングで計算した結果を距離として用いる」という言い方について

http://d.hatena.ne.jp/okamoto7/20070219#p2 問題とそれを解くためのアルゴリズムが分離されていない。 あたかも「私はDPマッチングが何を計算するものか知らないが、便利そうなので使った」と主張してるようにしか思えない。 「○○を距離として定義し、それ…

Cygwin で SMB

http://d.hatena.ne.jp/lurker/20070126/1169740979 cd //IPアドレス/ディレクトリ名 cd //MACHINE_NAME もいけます。

vector で 2次元配列

cxx

#include <vector> #include <iostream> using namespace std; int main() { vector<vector<double> > table(2, vector<double>(2)); table[0][0] = 0.1; table[0][1] = 0.2; table[1][0] = 0.3; table[1][1] = 0.4; for ( vector<vector<double> >::iterator i = table.begin(), e = table.end(); i != e; ++i ) { fo</vector<double></double></vector<double></iostream></vector>…

比較関数

http://d.hatena.ne.jp/odz/20070212/1171345311 これに気づかないのはけっこう危険ですね。 int cmp(const int *a, const int *b) { return *a - *b; }たとえば INT_MIN - INT_MIN はオーバーフローにより 0 でない値をとる。 Nearly All Binary Searches a…

thread2dat.pl

perl -pe' s{^(http://.*?)/.*/(.*?)/(\d{10}).*$}{$1/$2/$3.dat\n}'

「知っていない」問題を状態化否定で解く

lx

状態化してから否定 押す→押している→押していない 知る 知っている 知っていない動作動詞 _!~_ _~!~_ ___!___変化動詞 _!~ _|~!~|_ ~|_!_|~押す→押さない→押さないでいる 知る 知らない 知らないでいる

音素交代アナグラム

kotoba october hatena hetana

2ch板の全レスダウンロード

perl -Mstrict -MWWW::2ch -e'my $bbs=WWW::2ch->new(url => $ARGV[0], cache=>q{/tmp/www2ch-cache}); $bbs->load_setting; $bbs->load_subject; print map $_->url."\n", $bbs->subject->threads' http://academy5.2ch.net/gengo/ | xargs wget -w 1 -m

EM segmentation

関係ない話から。 segmentation といいつつ、文字や文よりも統計処理に向いている単位を探すというのがタスク。 たぶん segmentation / 分割 / 区切り という用語はふさわしくないけれど、 惰性で使っている。 過去の人が使っているから…確率分割済みコーパ…

Gnuplot の plot コマンドの引数のファイルにはシェルコマンドがかける

gnuplot> plot "perl -e'print map { $_=$_%2; qq{$_\n} } (0..10)')" w l

Word Segmentation as Semi-Supervised Clustering

文字区切りと形態素区切りと文区切りがあることを仮定する。 文字単位から結合を開始する。文末文字と次の文の文頭文字は cannot link 隣り合ってない文字同士は cannot link

Xiaojin Zhu (Jerry Zhu)

http://www.cs.wisc.edu/~jerryzhu/ Semi-supervised learning 専門家。 NLPよりでもある。

バベル案内

http://www.aoky.net/articles/steve_yegge/tour_de_babel.htm Javaに切り替えることは、2人のプログラマになることだ。 1人はあなたがもはや気にかけなくて良くなったことの面倒を見、もう1人が問題領域にフォーカスする。

Math

Random で 多次元正規分布に従う乱数を発生させる [perl][stat] random_multivariate_normal(N, mean_vector, covariance_matrix) で、N 個のサンプルが帰ってくる。 mean_vector, covariance_matrix は配列へのリファレンスではなく、配列である必要がある…

Gaussian Process で滑らかな関数を発生させる

Gaussian Process は関数空間上の確率変数の一種。 #! /usr/bin/env perl use strict; use warnings; use Math::Random qw/:all/; my @xs = map { ($_/30) } (0..20); # 関数への入力値列 my $n = scalar @xs; my @v = map { my $x=$_; [map {exp -1/2*( ($x…

発表ガイド

発表技法 成果物をまねするのではなく工程をまねする 1.概要 発表は聴衆を対象にして演説や視覚媒体を用いる伝達である. ・発表には構造がある ・口で話す伝達である.文章で伝えるのと違う. ・発表の作業を工程として理解する 2.分析 発表は時間が軸…

CJKV日中韓越情報処理

http://www.amazon.co.jp/dp/4873111080 文字コード関係の些事は意外につらいので。 研究室で購入すべき本だと思う。英語話者が増えつつある現状を踏まえると、原書 http://www.amazon.com/CJKV-Information-Processing-Ken-Lunde/dp/1565922247 の方がいい…

nesugi.net - swigの使い方のメモ書き

http://www.nesugi.net/hiki/?swig%a4%ce%bb%c8%a4%a4%ca%fd%a4%ce%a5%e1%a5%e2%bd%f1%a4%ad 1. moduleにしたいプログラムのsource(*.cppとか)を持ってくる 2. cppファイル毎に*.iを書く ← これがswig語 3. swigコマンドで*.iを各スクリプト言語用のwrapper(…

Inverted Files for Text Search Engines

http://www.aifb.uni-karlsruhe.de/lehre/winter2006-07/aia/invertedfiles.pdf 転置インデクスまとめ