mecab/swig で形態素のオリジナルテキスト上での位置を得る

segmentation nlp

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が元のテキストの何バイト目から何バイト目に出現したか分かるので、元のテキスト中にスペースがあ…

2007-07-17

系列ラベリング問題に関するメモ

learning segmentation net

http://cl.naist.jp/~masayu-a/article/2006-05-26.pdf

2007-06-10

WMT07 Shared task

segmentation lm mt

かなり前に公開されていたらしい。単語分割込みの機械翻訳の話がいくつか。Can We Translate Letters? 文字列単位のフレーズベース機械翻訳An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Rober…

2007-03-09

Prof. Mark Johnson の Dirichlet processes and unsupervised grammar learning

segmentation

Bayesian な単語分割、文字列レベルから区切り softwaresがすばらしい。なにがすばらしいかというと、C++で書かれているのがすばらしい。統計処理言語 R ってなんですか？

2007-02-14

EM segmentation

segmentation

関係ない話から。 segmentation といいつつ、文字や文よりも統計処理に向いている単位を探すというのがタスク。たぶん segmentation / 分割 / 区切りという用語はふさわしくないけれど、惰性で使っている。過去の人が使っているから…確率分割済みコーパ…

2007-02-13

Word Segmentation as Semi-Supervised Clustering

segmentation

文字区切りと形態素区切りと文区切りがあることを仮定する。文字単位から結合を開始する。文末文字と次の文の文頭文字は cannot link 隣り合ってない文字同士は cannot link

2007-01-28

Sharon Goldwater

segmentation people stat net

http://www.stanford.edu/~sgwater/ D論ゲット Nonparametric Bayesian Models of Lexical Acquisition いわゆるひとつの Unsupervised Morphological Segmentation です。

2007-01-10

適応と過学習

segmentation

適応は、実際に運用するときのデータに近い傾向の訓練データを使って、その訓練データ上で過学習を起こさせること。過学習というか過度の適応は避けたいのだけれど、どの程度適応させるべきかは、訓練データが実データにどの程度似ているかによる。極端…

2007-01-10

結局適応をやりたいのかスムージングをやりたいのか

segmentation

アブストラクトでは話し言葉の連語とかを獲得したい、というのが主眼。で、どの程度適応するのかコントロールするところがキモになる。設定した問題

2006-11-07

The Role of Prosodic Phrasing in Korean Word Segmentation

lx segmentation

http://www.linguistics.ucla.edu/faciliti/research/skim_diss.pdf

2006-02-24

「音声認識用 N-gram 言語モデルの単位の最適化」見直し

segmentation lm

最小単位をなににするか？・文字・形態素・？形態素でないにしても、読みが決定されている必要がある。音声認識、同字語の曖昧性解消の点からも、読みは有用。音響コンフュサビリティを考慮した単位の必要性：１モーラしかない単語では、音響モデルで…

2006-02-24

「音声認識用 N-gram 言語モデルの単位の最適化」批判

segmentation lm

そもそも、N-gram でなく、適応的に文脈長を選ぶべきではないか（PPM*言語モデル？）形態素／活用の単位の2-gram文脈の情報量は、それなりに一様（1-gram文脈では明らかに不足しているが） 3-gram と 2-gram はけっこう違う。

2006-02-20

A Bayesian Approach to DNA Sequence Segmentation

bio segmentation stat

http://www.mas.ncl.ac.uk/~njnsm/seminars/seminars0405/abstracts/boys.pdf

2006-02-13

Particle Filter による文脈の動的ベイズ推定(2005)

lm segmentation net

http://chasen.org/~daiti-m/paper/nl165pf.pdf スライドも。トピック言語モデル、長距離言語モデルの最先端。

2006-02-10

Leaving-one-out Perplexity

segmentation lm

Ries さんの方法の全体像：まず、単語をクラスタリングする。以降、単語の出現の代わりに、クラスの出現を数える。全2-gramを列挙し、それを連結したときの全体の対数尤度の変化をテーブルに保持する。対数尤度は、2-gramの出現頻度のみで決まる、場合わけ…

2006-02-10

ボトムアップなクラスタリングとチャンキングの交互繰り返し

lm segmentation

「単語 Unit, Phrase」の獲得と「同類語 Class」の獲得をいっしょにやってしまおうというアイディア。単語とクラスは最初、どちらも文字（形態素でもよい）単語の獲得のために、尤度変化を最大にする連接をくっつけることを繰り返す。単語そのものの連接で…

2006-02-09

Clustering と Chunking

lm segmentation

Ries さんの一連の Class-Phrase 言語モデルに関係する研究では、・比較的小さな（それでもドイツ語で数万語レベル）の特定ドメインのコーパスで言語モデルをつくりたい →小さなサンプルから母集団を推定するために、積極的なパターン抽出（クラスタリング）…

2006-02-08

Proceedings of the 9th Conference on Computational Natural Language Learning (2005)

segmentation net

http://citeseer.ist.psu.edu/734816.html Morphological Segmentation の新しい論文。単語変形規則の探索か？

2006-02-03

卒論追記

segmentation

単語同定の必要性（問題設定）に関する議論が必要。言語モデル構築のためには、単語同定は必ずしも必要ではなく、文字単位で構築することは可能。ただ、計算の容易な固定長N-gramでは、精度と性能を両立するNが見付かる見込みが薄い。 → 「一定の長さの列…

2006-02-01

Identifying Hierarchical Structure in Sequences -- A linear-time algorithm - Nevill-Manning, Witten (ResearchIndex)

segmentation net

http://citeseer.ist.psu.edu/nevill-manning97identifying.html 文脈自由文法形式での圧縮。連続する２つの非終端記号の連続が２回以上現れていたら、かならず新しい非終端記号でまとめる、という制約を設定して、対象データの増加に対してインクリメンタ…

2006-02-01

Compressed Pattern Matching for SEQUITUR - Mitarai, Hirao, Matsumoto, Shinohara, Takeda, Arikawa (ResearchIndex)

net segmentation

http://citeseer.ist.psu.edu/mitarai00compressed.html 圧縮されたデータ上でのパターンマッチング。階層、非階層の辞書式圧縮の展開法の統一的な枠組も。

2006-01-26

教師なし単語分割と言語モデリング

segmentation

フィンランド語、トルコ語、アラビア語における、単語から形態素への分割の研究と、中国語、日本語における、文から単語への分割の研究。前者については、多くの研究がある。音声認識につなげた事例もあるが、音素との対応付けには何も問題がないのだろう…

2006-01-26

卒論修正

segmentation

L_corp の説明、単語数で数えた辞書の長さ → 〜コーパスの長さ 2-gram の辞書の符号長の定義でマイナスが抜けている

2006-01-25

読み付与

segmentation

そういえば、文字でなく形態素からはじめれば、読みはついてる。形態素解析の誤りも入ってきてしまうけれど。

2006-01-25

Shiho Nobesawa

segmentation lm net

http://iskig11.is.noda.tus.ac.jp/~shiho/paper.ja.html 音韻的類似に注目した言語モデリング？大山景詞, 延澤志保, 太原育夫, 音声認識システムにおける音韻的類似表現を考慮した言語モデルのタスク適応, 情報処理学会第68回全国大会, no.5M-5, 工学…