2006-01-01から1ヶ月間の記事一覧

Tociyuki-Diary - Tropy クローン

http://d.hatena.ne.jp/tociyuki/20051114/1131982296 entry.cgiから、 CGI の礼儀作法。 #!/usr/bin/perl -T use lib qw(.); use strict; use warnings; use Jcode; T は、taint。 use lib qw(.) は、Perl ライブラリのパスに . を追加する。

hizum.net

http://www.hizum.net/

Perl で可変長整数、有理数

use bigint; print 5**100, "\n"; use Math::BigInteger; とちがって、普通の演算が自動的に BigInteger になる。

Studying Recommendation Algorithms by Graph Analysis (2003)

http://citeseer.ist.psu.edu/mirza03studying.html

Polyphonic Music Modeling with Random Fields - Victor, Jeremy (2003)

http://citeseer.ist.psu.edu/victor03polyphonic.html Markov Random Field を利用した、音楽モデリング。 テキスト検索手法を音楽検索へ導入することを強く意識している。パープレキシティ評価も。

A comparison of continuous vs. discrete image models for probabilistic image and video retrieval(2004)

http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=1421581 画像検索

HTML Slidy

http://www.w3.org/talks/tools/slidy/ W3C による、CSS + XHTML + JavaScript のプレゼンテーションツール。ポジションとしては LaTeX + Beamer に近いが、 動的効果が得意で、数式が苦手。 フォントサイズを表示中に切替えられるのと、 エディタとブラウザ…

新谷研究室

http://www-toralab.ics.nitech.ac.jp/index-j.html Ajax とか。 価値創出型のシステム開発。

Harmonic Modeling for Polyphonic Music Retrieval (2004)

http://citeseer.ist.psu.edu/pickens04harmonic.html コンテンツベースの音楽検索についての博士論文。 多声のパッセージを検索質問とし、曲を検索結果とする。

Model-based Feedback in the Language Modeling Approach to Information Retrieval (2001)

http://citeseer.ist.psu.edu/zhai01modelbased.html 言語モデル的アプローチによる情報検索に、ユーザーからのフィードバックを上手く組み込む方法。

数学ノート

http://coolee.at.infoseek.co.jp/note.html ガロア理論など。

MDL site - Reading

http://www.mdl-research.org/reading.html 新しいチュートリアルがあった。 NEW: P.Gr?nwald, A Tutorial introduction to the minimum description length principle. In: Advances in Minimum Description Length: Theory and Applications (edited by P.…

Tomo's HotLine

net

http://toremoro.tea-nifty.com/tomos_hotline/ P2P basic

教師なし単語分割と言語モデリング

フィンランド語、トルコ語、アラビア語における、 単語から形態素への分割の研究と、 中国語、日本語における、文から単語への分割の研究。前者については、多くの研究がある。 音声認識につなげた事例もあるが、音素との対応付けには何も問題がないのだろう…

卒論修正

L_corp の説明、単語数で数えた辞書の長さ → 〜コーパスの長さ 2-gram の辞書の符号長の定義でマイナスが抜けている

読み付与

そういえば、文字でなく形態素からはじめれば、読みはついてる。 形態素解析の誤りも入ってきてしまうけれど。

Shiho Nobesawa

http://iskig11.is.noda.tus.ac.jp/~shiho/paper.ja.html 音韻的類似に注目した言語モデリング? 大山 景詞, 延澤 志保, 太原 育夫, 音声認識システムにおける音韻的類似表現を考慮した言語モデルのタスク適応, 情報処理学会 第68回全国大会, no.5M-5, 工学…

Segmenting sentences into linky strings using d-bigram statistics

http://portal.acm.org/citation.cfm?id=993271 Step 2-gram を用いた相互情報量の増減により、単語境界を判定。

The Sparse Data Problem in Statistical Language Modeling and Unsupervised Word Segmentation (ResearchIndex)

http://citeseer.ist.psu.edu/489036.html 教師なし単語分割に関する、博士論文。 中国語の分割をやっている、Fuchun Peng さん。

torus solutions!

http://torus.jp/ リスト処理プログラミングとか、制約プログラミングとか。

符号化するなら、確率表も送らないと復元できない

麻生さんからの御指摘。 秋葉先生からも、一度言われていたが。辞書 0-gram、コーパス 1-gram の場合は、 辞書に確率表は不要で、 コーパスに対する確率表は、 辞書エントリに固定長の確率部を追加したと考えればよい。 この場合は、結局確率表を符号化しな…

Tomokiyo & Ries, What makes a word - Learning base units in Japanese for speech recognition

lm

Class Phrase Models For Language Modeling の日本語への適用。 日本語で、パープレキシティをもっとも減少させるように、2-gramを連結する。 ただし、単語の出現確率はクラスベースであたえ、クラスは単語クラスタリングを用いる。

Hermann Ney, Member, Ute Essen, Reinhard Kneser, On the Estimation of 'Small' Probabilities by Leaving-One-Out(1995)

http://csdl.computer.org/dl/trans/tp/1995/12/i1202.htm Leaving-one-out というバックオフ手法について。

Java パフォーマンスチューニング

http://javanews.jp/javap/ Java Performance Tuningの日本語版。ヒープの大きさに関する質問では、 仮想メモリのことの他に、メモリを多く長く使うプログラムでは 古い非効率な GC が起動され、パフォーマンスを急激に低下させることがあるとか。

茶筌と kakasi の読み付与

> chasen 今日 キョウ 今日 名詞-副詞可能 の ノ の 助詞-連体化 輪講 リンコウ 輪講 名詞-サ変接続 の ノ の 助詞-連体化 際 サイ 際 名詞-非自立-副詞可能 、 、 、 記号-読点 御 ゴ 御 接頭詞-名詞接続 紹介 ショウカイ 紹介 名詞-サ変接続 し シ する 動…

Ruby のある風景

http://mono.kmc.gr.jp/~oxy/ 若き情報学者? anthy の開発者の一人でもある。

Manindra Agrawal, Neeraj Kayal, Nitin Saxena, "PRIMES is in P."

http://www.cse.iitk.ac.in/users/manindra/primality_v6.pdf 素数判定が多項式時間。 via Favorite Theorems Recap

可搬性のある shebang (#! ...) の書き方

#! /usr/bin/perl だと、/usr/local/bin/perl のシステムでは使えない。 #! /usr/bin/env perl だと、PATH を適用したときの perl が呼び出される。 #! /usr/bin/env perl -w はどうもダメっぽいので、 #! /usr/bin/env perl use warnings;

卒論追記

A \neq B を仮定するとき、 A = B はどう処理するのかを書いてない。式が横に長すぎる箇所がある。 また、大量の場合分けは、最初のいくつかについて文章で述べ、導出手順を示し、 残りは結果を表にまとめ、導出は付録とする。ベースラインである形態素解析…

Poderosa

http://ja.poderosa.org/ Poderosa(ポデローサ) は、タブ式 GUI・SSH2 をサポートしているオープンソースの Windows 用高機能ターミナルエミュレータです SSH と Cygwinがタブで並べられる。