lm

large set of target labeling

lm

ラベルの汎化(クラスタリング)が必要伝統的な class-based model による

Jun Wu, Maximum Entropy Langauge Modeling with Non-Local Dependencies

http://www.cs.jhu.edu/~junwu/publications.html文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、

階層型生成モデルによるキャッシュモデル

lm

Unsupervised Language Model Adaptation Incorporating Named Entity Information

http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、 文書クラスタリングに基づく適応をやったという話。

Fast exact maximum likelihood estimation for mixture of language models

lm ir

http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、 厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…

未知語

lm

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。 簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、 訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。モデル1はABCという3つの単…

factored language models

lm

Traditional SLMs are based on N-gram language models (NGLMs), which essentially treat each word occurrence as an probabilistic event.Naive NGLMs are suffered with data sparseness. One examples was ...To avoid the data sparseness problem, .…

Language model smoothing tutorial

http://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf ふつうのLMスムージング

ICASSP 2007

lm sr

ICASSP 2007, Honolulu, Hawai'i, U.S.A. ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。 音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。 より言語の話題が多く出るのは、Interspe…

WMT07 Shared task

かなり前に公開されていたらしい。 単語分割込みの機械翻訳の話がいくつか。Can We Translate Letters? 文字列単位のフレーズベース機械翻訳An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Rober…

言語モデルの評価について

lm

パープレキシティは簡単な比較をするためには便利だけれど、 特徴を分析して改良のヒントを探すためには粗すぎる。というわけでもっと細かい評価の方法:1. テストコーパスを文程度のレベルで区切って、 長さ正規化された確率降順でセグメントをランキング2.…

Roni Rosenfeld's Home Page

http://www.cs.cmu.edu/~roni/ Adaptive Statistical Language Modeling: A Maximum Entropy Approachの人。 Language and Statistics 2007他。

WHOLE-SENTENCE EXPONENTIAL LANGUAGE MODELS -- A VEHICLE FOR LINGUISTIC-STATISTICAL INTEGRATION

http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf 長距離言語モデルの代表選手の一つ。

Shaojun Wang

http://www.cs.wright.edu/~swang/ Latent Maximum Entropyの人であり、 長距離言語モデルの代表選手の一人。

構造主義言語学の音声-言語モデル

lx lm

青年文法学派(Junggrammatiker)の歴史言語学 〜プラーグ学派の音韻論 〜構造主義言語学の未知言語記述 〜生成文法の統語論 の流れを教えてもらった。互いに交換可能である部分列を同じクラスに属するものとみなす。 同時に、その部分列をひとつのまとまりと…

無限級数頻度による文脈拡張にもとづく言語モデル

鈴木潤さん@NLP2007 のネタから。N-gram言語モデルは長距離の依存関係を表現することができない。 文の識別モデルも、文をこえる依存関係の表現はできない。云々ある単語のベクトル表現を、 その前に出現する単語のベクトル表現*αの和とする。 和は種類では…

MLS は Voronoi 図 に落とせるんじゃないの?

それとも additive weight Voronoi 図 か。 根拠はない。Spatial Query Processing Utilizing Voronoi Diagrams

Distributional Approaches to NLP

http://cl.naist.jp/thesis/dthesis-mochi.pdf Daichi Mochihashi さんの博士論文構造の知識 vs. 分布の知識 という対比

podcastle

http://podcastle.jp/ 緒方さんの音声訂正が Wiki になった!(惹句)

Language Modeling for Information Retrieval Resources

lm ir

http://sifaka.cs.uiuc.edu/lmir/

Julius によるオフライン音声認識 for Windows

sr lm

目的:wav2txt 動かすだけなら、すごく簡単です。 まともに使えるようにするのは、かなり大変です。Julius ディクテーションキットをダウンロードする。fast.jconf の input sscalc などを適切に編集する。run_fast.bat として動かす。Julius は基本的にはデ…

Bayesian LM Adaptation

lm

Dynamic Language Model Adaptation using Variational Bayes Inference(2005 eurospeech) Bayesian Estimation Methods For N-Gram Language Model Adaptation - Federico (1996)

Isotani -- Speech Recognition Using a Stochastic Language Model Integrating Local and Global Constraints

http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例

言語モデル適応

lm

アクティブなのはこの辺? Bacchiani: Unsupervised language model adaptation - Google Scholar 同2005年のA Comparative Study on Language Model Adaptation Techniques Using New Evaluation MetricsMAPBellegarda2003サーベイ 音声認識 実質2001年のと…

SRILM

lm

2002年にリリースされた言語モデリングのためのツール。 ファイルレベルでは ARPA 形式互換。 コマンドレベルの CMU との互換性はなし。 # CMUと同時にインストールできるので、むしろ都合が良いかもPalmkit とか CMU-Cambridge とか [2006-07-10-4]って、 …

CMU vs. Palmkit vs. Waterloo SLM Toolkit

lm

CMU Waterloo Palmkit Palmkit のソースが一番丁寧に書かれていると思う。waterloo は C++ 移植だけれども、基本的に CMU そのまんまという感じがする。 ただし、中国語・日本語への対応が追加されているとか。性能は…やっぱりベンチマークとらないと。

Makefile for launching Palmkit

Palmkit (= CMU-Cambridge SLM Toolkit) は、 各ステップの処理が別コマンドになっていて、 ユーザーが好きなスクリプトで走らせられるようになっている。評価実験をするときには、色々な訓練データを使ってやりたい。 新規データの追加をしたときには、それ…

SLM Toolkit による N-gram 頻度の計数

SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。 (idngram, n=2,3) CMU の方は チェインハッシュ、 Pamkit は内部ハッシュを使っている。そのうちベンチマークしてみよう。test.text a b r a c a d a b r a test.idngram (ascii) 1 2 5 …

Language Modeling with the Maximum Likelihood Set -- Complexity Issues and the Back-off Formula

http://www.ipam.ucla.edu/publications/ds2006/ds2006_5861.pdf Maximum Likelihood Set [2006-04-06-4] 応用の解説プレゼン。最尤推定では、単体上で格子状の点集合のどれかしかとれず、 周縁に位置することにより、0確率がたくさんできてしまう。可能な点…

Document Space

http://www.ipam.ucla.edu/schedule.aspx?pc=ds2006 テキストモデリング関係の理論のワークショップ。 MP3の録音とか公開されてる。