2007-01-01から1年間の記事一覧

neural networks と bayesian networks

Feed Forward Neural Networks (Multi-layer Perceptron)と Baysian Networks (Belief Networks) は、DAG で表現された学習・推論のモデルであるという点で似ている。FFNNでは、1つのノードは入力の線形和に対する閾値関数として定義され、 線形和の重みと閾…

オブジェクトをキーとしたハッシュ

Perl の組込みのハッシュは、いろいろな点で java.util.Map (Java) とか std::map (C++) と違うので、 同じような動作を期待するとはまることが多い。Perl の組込みのハッシュは文字列をキーとしたハッシュなので、 bless されたリファレンスはたとえば 「ク…

Natural Language Toolkit

http://nltk.sourceforge.net/index.php/main_page 各種コーパスやWordNetのパーザーがPythonで提供されている。

JScience

http://jscience.org/ 単位変換と精度つき数、行列とベクトルのライブラリ

ICASSP 2007

lm sr

ICASSP 2007, Honolulu, Hawai'i, U.S.A. ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。 音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。 より言語の話題が多く出るのは、Interspe…

Category-Russian language - Wiktionary

http://en.wiktionary.org/wiki/category:russian_language 語学(と研究?)用に、発音記号付きの、機械可読の、 オープンな、ロシア語(さらに、できれば多言語)の電子辞書リソースを探していたのですが、 思いがけず Wiktionary が使えそうなレベルに達…

WMT07 Shared task

かなり前に公開されていたらしい。 単語分割込みの機械翻訳の話がいくつか。Can We Translate Letters? 文字列単位のフレーズベース機械翻訳An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Rober…

Casting does not work as expected when optimization is turned on.

http://gcc.gnu.org/bugs.html#nonbugs_c

Skewed Binary Search Trees

http://www.brics.dk/~gerth/papers/esa06skew.pdf via okamoto7 先生平衡しない二分探索木は、平衡した二分探索木より平均深さが深くて、 そのために平均の枝をたどる数が多く、 探索により長い時間がかかる、というのが伝統的な見解。この論文は、右の子の…

Solving large scale traveling salesman problems by chaotic neurodynamics

http://dx.doi.org/10.1016/s0893-6080(02)00017-5 完全結合(自己結合)型(ホップフィールド型)ニューラルネットワークには、 結合荷重に対応した安定不動点が存在することが知られている。安定不動点への収束は、最適化の観点からは、局所最適値への収束…

Specmurt Anasylis -- A Piano-Roll-Visualization of Polyphonic Music Signals by Deconvolution of Log-Frequency Spectrum

http://hil.t.u-tokyo.ac.jp/~lab/topics/sagayama04sapa10/index.html

IPA の項目がすばらしく充実している件

http://en.wikipedia.org/wiki/international_phonetic_alphabet これだけで、音声学のよい復習になります。情報処理推進機構ではないのに注意。追記 音声学を勉強したような顔をしてますが、本を読んだだけです。 言語学の中で音声学だけはトレーニングを受…

マイク入力からの録音、Windows vs Linux + ALSA

Windows: 1分以内なら、「サウンドレコーダー」で。ただし録音内容をオンラインで聞くことができない。 1分より長いなら、フリーソフト等を使う。 タイムシフトレコーダ は、ほぼオンラインで内容を聞けるので便利でした。Linux + ALSA: arecord > output.wa…

「虜みたい」と「取り込みたい」

lx

あるいは「可みたい」と「噛みたい」 この種類の対立は、トピックモデルで解消すべきことのような気がする。 この種の同音異義表現は、仮名漢字変換において盲点になっているのでは、と思った。人間にとって同音異義語であることが意識されやすい同音異義語…

MUST1 -- 日本語複合辞用例データベース v1.0

http://nlp.iit.tsukuba.ac.jp/must/ Matsuyoshi-Utsuro-Satoh-TsuchiyaでMUST複合辞の表層表現のリストと、 その正例・負例へのポインタ(毎日新聞記事)リストとして提供されている。 ...

Perl Critic

http://perlcritic.com/ Some Ways Are Better Than Others Perl のスタイルチェッカー

CRF tutorial

http://164.67.141.39:8080/ramgen/ipam/smil/7-28-05-pm-2.smil Lafferty先生によるCRFチュートリアルのビデオ

Reference is not alias

cxx

#include <iostream> class cmplx { public: double x; double y; double& real; double& imaginary; public: cmplx(double _x, double _y) : x(_x), y(_y), real(_x), imaginary(_y) {} }; int main(int argc, char** argv) { cmplx c(0.1, 0.1); std::cout << c.real </iostream>…

Graphical Models - Elsevier

http://www.elsevier.com/wps/find/journaldescription.cws_home/622839/description論文誌graphical modelsは、bayesianの言うgraphical modelsではなく 3d reconstructionの文脈でのそれ。

コンストラクタのインターフェイスを増やす

cxx

Javaでいうところの public class Foo { public Foo(String s) { ... } public Foo(SomeClass x) { this(x.toString()); } がやりたいのですが、 class Foo { Foo(string s) { ... } Foo(int x) { Foo(x + ""); } } だと→ 共通部分を関数にしてください。 [1…

言語モデルの評価について

lm

パープレキシティは簡単な比較をするためには便利だけれど、 特徴を分析して改良のヒントを探すためには粗すぎる。というわけでもっと細かい評価の方法:1. テストコーパスを文程度のレベルで区切って、 長さ正規化された確率降順でセグメントをランキング2.…

もっとも近い点を探す

離散値(あるいは有限精度の実数値)の高次元空間を考える。 サイト集合と問い合わせ点が与えられたとき、 問い合わせ点にもっともちかく、サイトのひとつである点を出力せよ。近さはユークリッド距離で定義する。 ただし、他の距離で高速な手法があればその…

Roni Rosenfeld's Home Page

http://www.cs.cmu.edu/~roni/ Adaptive Statistical Language Modeling: A Maximum Entropy Approachの人。 Language and Statistics 2007他。

国語音韻の変遷

http://www.aozora.gr.jp/cards/000061/files/377_2754.html イ(甲)、イ(乙)の原典。むかしの日本語には母音が七つあったという話。

空白行をスキップせずに行番号をつける

nl -ba

windows サーバーでの ntp の設定

win

net time で現在の設定が見られる。ドメインのクライアントはドメインのサーバーに同期し、 ドメインのサーバーは外部のNTPサーバーに同期するという設定の場合、ドメインのサーバーで net time /setsntp:ntp.nc.u-tokyo.ac.jp ドメインのクライアントはデフ…

はじめて出会うコンピュータ科学

http://homepage.mac.com/tokuda.cs/iw/index.html コンピュータ科学の絵本

From HMMs to Segment Models -- A Unified View of Stochastic Modeling for Speech Recognition - Ostendorf, Digalakis, Kimball (ICASSP1996)

http://citeseer.ist.psu.edu/ostendorf95from.html HMMの拡張である Hidden semi-Markov Models または Segmental HMM。 遷移のときにシンボル列を出力する。

VideoLectures - exchange ideas & share knowledge

http://videolectures.net/ 講義動画を集めるサイト。 機械学習関係の講義がとても多い。

Graphical Models

http://www.cs.ubc.ca/~murphyk/bayes/bayes.html directed graphical model が中心だけど、 undirected model の文献紹介もある。graphical models な講義 10-708 Probabilistic Graphical Models, Fall 2006 EE512 Algorithms for Graphical Models (AGM)…