ir

Pattern Matching Pointers (maintained by Stefano Lonardi)

http://www.cs.ucr.edu/~stelo/pattern.html#resources 文字列アルゴリズム、情報検索周辺の学会、本、ソフトウェア

LETOR -- Benchmark Dataset for Learning to Rank

http://research.microsoft.com/users/letor/ "learning to rank" タスクのデータセットが公開されている。

Fast exact maximum likelihood estimation for mixture of language models

lm ir

http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、 厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…

The Xapian Project

http://www.xapian.org/

もっとも近い点を探す

離散値(あるいは有限精度の実数値)の高次元空間を考える。 サイト集合と問い合わせ点が与えられたとき、 問い合わせ点にもっともちかく、サイトのひとつである点を出力せよ。近さはユークリッド距離で定義する。 ただし、他の距離で高速な手法があればその…

井上真琴, 『図書館に訊け!』

情報探索入門の本。 どちらかというと文系よりで、文書を対象とした調べ物のやり方がかかれている。「参考図書」は「貸出し禁止である」ことが必要充分条件だと思っていたけどそうではなかったらしい。 汎用の百科事典、専門の百科事典、書誌(bibliography, …

Gilad Mishne

http://staff.science.uva.nl/~gilad/ ブログ、Webマイニングの人。 International conference on weblogs and social media でチュートリアル

位置情報を数値1つで表す手法「Z-ordering」

http://toremoro.tea-nifty.com/tomos_hotline/2007/03/p2p1zordering_d8ba.html Z-orderingは文字の通り空間をZのように埋め尽くし、一次元の数値で表してしまう技法だ。 空間充填曲線で敷き詰めたとき始点からその点まであるいた距離を、 ある点の座標と…

Inverted Files for Text Search Engines

http://www.aifb.uni-karlsruhe.de/lehre/winter2006-07/aia/invertedfiles.pdf 転置インデクスまとめ

Advanced Search - Project Gutenberg

http://www.gutenberg.org/catalog/world/search Project Gutenberg が全文検索可能になっていた件について たとえば Chrismas carol のあのことばも一発でいつからあった?全部落とす方法

Language Modeling for Information Retrieval Resources

lm ir

http://sifaka.cs.uiuc.edu/lmir/

Probabilistic models for focused web crawling

http://portal.acm.org/citation.cfm?id=1031458

Finding Frequent Items in Data Streams - Charikar, Chen, Farach-Colton (2002)

http://citeseer.ist.psu.edu/charikar02finding.html 頻度の近似計算?

Generalized Hebbian Algorithm for Incremental Singular Value (2006)

http://citeseer.ist.psu.edu/746603.html yet another SVD algorithm

Clarke -- Shortest-substring retrieval and ranking (2000)

http://scholar.google.com/scholar?hl=en&lr=&cluster=2191706408632576091 AND,OR,region algebra のクエリに対して、 データベースの部分文字列(位置)のリストを返す。リスト中の部分文字列は、クエリに適合する極小な部分文字列。 リストは文字列の長…

Bayesian Hierarchical Clustering (2004, ICML)

http://citeseer.ist.psu.edu/735303.html ボトムアップクラスタリングの距離評価に、 Bayesian なモデルによる確率を使う。

Modeling word burstiness using the Dirichlet distribution

http://portal.acm.org/citation.cfm?id=1102420 Dirichlet分布を使った文書モデル。 単語頻度の経験的分布において、 多項分布によって表すことができない性質があることを示し、 それを Dirichlet 分布で表すことができることを示す。 (明らかに傾向が違…

Spectral Based Information Retrieval

http://www.ee.unimelb.edu.au/multimedia/research/cubin_laurence_park_spectralphd.pdf DCT x IR基本に使う情報が、単語の頻度ではなく空間周波数。 どっちも Frequency なのはご愛嬌。slides質問単語と文書の類似度を、 その単語のその文書における空間…

An Algebra for Structured Text Search and A Framework for its Implementation - Clarke, Cormack, Burkowski (1995)

http://citeseer.ist.psu.edu/clarke95algebra.html GCL(General Concordance List)問い合わせ代数。

A comparison of continuous vs. discrete image models for probabilistic image and video retrieval(2004)

http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=1421581 画像検索

Piotr Indyk

http://theory.lcs.mit.edu/~indyk/ 雑音のあるパターンマッチング。 FFTをツールとして、というのが面白そう。