lm
ラベルの汎化(クラスタリング)が必要伝統的な class-based model による
http://www.cs.jhu.edu/~junwu/publications.html文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、
http://acl.ldc.upenn.edu/p/p07/p07-1094.pdf 文書を表す単語ベクトルを、named entity だけにして、 文書クラスタリングに基づく適応をやったという話。
http://dx.doi.org/10.1145/1277741.1277948 情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、 厳密かつ、線形時間な解法が得られた。p, q を多項分布に従う確率変数、\alpha を実数とするとき、 r = \alpha p + (1-\al…
AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。 簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、 訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。モデル1はABCという3つの単…
Traditional SLMs are based on N-gram language models (NGLMs), which essentially treat each word occurrence as an probabilistic event.Naive NGLMs are suffered with data sparseness. One examples was ...To avoid the data sparseness problem, .…
http://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf ふつうのLMスムージング
ICASSP 2007, Honolulu, Hawai'i, U.S.A. ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。 音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。 より言語の話題が多く出るのは、Interspe…
かなり前に公開されていたらしい。 単語分割込みの機械翻訳の話がいくつか。Can We Translate Letters? 文字列単位のフレーズベース機械翻訳An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Rober…
パープレキシティは簡単な比較をするためには便利だけれど、 特徴を分析して改良のヒントを探すためには粗すぎる。というわけでもっと細かい評価の方法:1. テストコーパスを文程度のレベルで区切って、 長さ正規化された確率降順でセグメントをランキング2.…
http://www.cs.cmu.edu/~roni/ Adaptive Statistical Language Modeling: A Maximum Entropy Approachの人。 Language and Statistics 2007他。
http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf 長距離言語モデルの代表選手の一つ。
http://www.cs.wright.edu/~swang/ Latent Maximum Entropyの人であり、 長距離言語モデルの代表選手の一人。
青年文法学派(Junggrammatiker)の歴史言語学 〜プラーグ学派の音韻論 〜構造主義言語学の未知言語記述 〜生成文法の統語論 の流れを教えてもらった。互いに交換可能である部分列を同じクラスに属するものとみなす。 同時に、その部分列をひとつのまとまりと…
鈴木潤さん@NLP2007 のネタから。N-gram言語モデルは長距離の依存関係を表現することができない。 文の識別モデルも、文をこえる依存関係の表現はできない。云々ある単語のベクトル表現を、 その前に出現する単語のベクトル表現*αの和とする。 和は種類では…
それとも additive weight Voronoi 図 か。 根拠はない。Spatial Query Processing Utilizing Voronoi Diagrams
http://cl.naist.jp/thesis/dthesis-mochi.pdf Daichi Mochihashi さんの博士論文構造の知識 vs. 分布の知識 という対比
http://podcastle.jp/ 緒方さんの音声訂正が Wiki になった!(惹句)
http://sifaka.cs.uiuc.edu/lmir/
目的:wav2txt 動かすだけなら、すごく簡単です。 まともに使えるようにするのは、かなり大変です。Julius ディクテーションキットをダウンロードする。fast.jconf の input sscalc などを適切に編集する。run_fast.bat として動かす。Julius は基本的にはデ…
Dynamic Language Model Adaptation using Variational Bayes Inference(2005 eurospeech) Bayesian Estimation Methods For N-Gram Language Model Adaptation - Federico (1996)
http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例
アクティブなのはこの辺? Bacchiani: Unsupervised language model adaptation - Google Scholar 同2005年のA Comparative Study on Language Model Adaptation Techniques Using New Evaluation MetricsMAPBellegarda2003サーベイ 音声認識 実質2001年のと…
2002年にリリースされた言語モデリングのためのツール。 ファイルレベルでは ARPA 形式互換。 コマンドレベルの CMU との互換性はなし。 # CMUと同時にインストールできるので、むしろ都合が良いかもPalmkit とか CMU-Cambridge とか [2006-07-10-4]って、 …
CMU Waterloo Palmkit Palmkit のソースが一番丁寧に書かれていると思う。waterloo は C++ 移植だけれども、基本的に CMU そのまんまという感じがする。 ただし、中国語・日本語への対応が追加されているとか。性能は…やっぱりベンチマークとらないと。
Palmkit (= CMU-Cambridge SLM Toolkit) は、 各ステップの処理が別コマンドになっていて、 ユーザーが好きなスクリプトで走らせられるようになっている。評価実験をするときには、色々な訓練データを使ってやりたい。 新規データの追加をしたときには、それ…
SLM Toolkit には、N-gram 頻度計数のコマンドとフォーマットがある。 (idngram, n=2,3) CMU の方は チェインハッシュ、 Pamkit は内部ハッシュを使っている。そのうちベンチマークしてみよう。test.text a b r a c a d a b r a test.idngram (ascii) 1 2 5 …
http://www.ipam.ucla.edu/publications/ds2006/ds2006_5861.pdf Maximum Likelihood Set [2006-04-06-4] 応用の解説プレゼン。最尤推定では、単体上で格子状の点集合のどれかしかとれず、 周縁に位置することにより、0確率がたくさんできてしまう。可能な点…
http://www.ipam.ucla.edu/schedule.aspx?pc=ds2006 テキストモデリング関係の理論のワークショップ。 MP3の録音とか公開されてる。