2007-04-01から1ヶ月間の記事一覧

Roni Rosenfeld's Home Page

http://www.cs.cmu.edu/~roni/ Adaptive Statistical Language Modeling: A Maximum Entropy Approachの人。 Language and Statistics 2007他。

国語音韻の変遷

http://www.aozora.gr.jp/cards/000061/files/377_2754.html イ(甲)、イ(乙)の原典。むかしの日本語には母音が七つあったという話。

空白行をスキップせずに行番号をつける

nl -ba

windows サーバーでの ntp の設定

win

net time で現在の設定が見られる。ドメインのクライアントはドメインのサーバーに同期し、 ドメインのサーバーは外部のNTPサーバーに同期するという設定の場合、ドメインのサーバーで net time /setsntp:ntp.nc.u-tokyo.ac.jp ドメインのクライアントはデフ…

はじめて出会うコンピュータ科学

http://homepage.mac.com/tokuda.cs/iw/index.html コンピュータ科学の絵本

From HMMs to Segment Models -- A Unified View of Stochastic Modeling for Speech Recognition - Ostendorf, Digalakis, Kimball (ICASSP1996)

http://citeseer.ist.psu.edu/ostendorf95from.html HMMの拡張である Hidden semi-Markov Models または Segmental HMM。 遷移のときにシンボル列を出力する。

VideoLectures - exchange ideas & share knowledge

http://videolectures.net/ 講義動画を集めるサイト。 機械学習関係の講義がとても多い。

Graphical Models

http://www.cs.ubc.ca/~murphyk/bayes/bayes.html directed graphical model が中心だけど、 undirected model の文献紹介もある。graphical models な講義 10-708 Probabilistic Graphical Models, Fall 2006 EE512 Algorithms for Graphical Models (AGM)…

WHOLE-SENTENCE EXPONENTIAL LANGUAGE MODELS -- A VEHICLE FOR LINGUISTIC-STATISTICAL INTEGRATION

http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf 長距離言語モデルの代表選手の一つ。

Chris Meek's Homepage

http://research.microsoft.com/~meek/Factorization of discrete probability distributions 対数線形モデルとマルコフ確率場の等価性をあたえた Hammersley-Clifford theorem の拡張 Collaborative filteringついでに。 Hammersley-Clifford theorem は原…

2D Conditional Randon Fields for Web Information Extraction

http://research.microsoft.com/users/znie/icml2005_2d-crf.pdf However, as the information on a Web page is two-dimensionally laid out, previous linear-chain CRFs have their limitations for Web information extraction.

Shaojun Wang

http://www.cs.wright.edu/~swang/ Latent Maximum Entropyの人であり、 長距離言語モデルの代表選手の一人。

構造主義言語学の音声-言語モデル

lx lm

青年文法学派(Junggrammatiker)の歴史言語学 〜プラーグ学派の音韻論 〜構造主義言語学の未知言語記述 〜生成文法の統語論 の流れを教えてもらった。互いに交換可能である部分列を同じクラスに属するものとみなす。 同時に、その部分列をひとつのまとまりと…

python + docutils で全角文字の幅計算が合わないらしい問題

ReStructuredText ではテーブルをアスキーアート的に揃えてやらないと文法エラーになるわけですが、 日本語などの文字は monospace 時に2文字分の場所をとることになっているので、 重み付きで文字数を数えないといけない。 古い python + docutils はそれを…

日本語文字列コード問題まとめ

http://python.matrix.jp/tips/string/encoding.html

Wordie

http://wordie.org/ Like Flickr, but without the photos. ソーシャル辞書というか、単語リストの collabolative filteringというか。好きな単語を投稿していき、コメントを付けていく。(Thu May 3 17:32:43 2007) http://labs.cybozu.co.jp/blog/akky/arch…

加藤重広, 『日本語文法 入門ハンドブック』

コンパクトな日本語文法の本。 学校文法から現在の文法研究に何歩か踏み出したところ というはしがきの言葉のとおり、学校文法が扱わない細かい現象をそれなりに網羅している。 文例も豊富。 参考文献へのポインタがもう少し細かく用意されているとありがた…

LibraryThing | Catalog your books online

http://www.librarything.com/ 本のための collaborative filtering。 17万人のユーザーと14万件のレビューとそのタグ付けがある。日本語だと本棚.orgとかブクログとかがあるけど、 これだけ大規模でオープンになっているのは、他になさそう。量が多ければ多…

音声弁別素性は有限か否か

sr

人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic …

井上真琴, 『図書館に訊け!』

情報探索入門の本。 どちらかというと文系よりで、文書を対象とした調べ物のやり方がかかれている。「参考図書」は「貸出し禁止である」ことが必要充分条件だと思っていたけどそうではなかったらしい。 汎用の百科事典、専門の百科事典、書誌(bibliography, …

情報統計力学の深化と展開 チュートリアル

チュートリアルマニアなので。 樺島祥介 (東京工業大学大学院総合理工学研究科) “More is different”の話 Lecture Note: PDF 渡邊澄夫 (東京工業大学精密工学研究所) 物理学者でない人のための統計力学 lecture note もアップされてる。

PodCastleの実現:Web2.0にもとづく音声認識性能の向上について

sr

IPSJ-SIG 2007-SLP-65 より。PodCastleがすばらしいのは、 研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。 音声認識システムはユーザーに音声ファイルの全文検索を提供する。 ユーザーは音声認識システムに訂正情報を提供す…