segmentation

mecab/swig で形態素のオリジナルテキスト上での位置を得る

http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が 元のテキストの何バイト目から何バイト目に出現したか分かるので、 元のテキスト中にスペースがあ…

系列ラベリング問題に関するメモ

http://cl.naist.jp/~masayu-a/article/2006-05-26.pdf

WMT07 Shared task

かなり前に公開されていたらしい。 単語分割込みの機械翻訳の話がいくつか。Can We Translate Letters? 文字列単位のフレーズベース機械翻訳An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Rober…

Prof. Mark Johnson の Dirichlet processes and unsupervised grammar learning

Bayesian な 単語分割、文字列レベルから区切り softwaresがすばらしい。 なにがすばらしいかというと、C++で書かれているのがすばらしい。統計処理言語 R ってなんですか?

EM segmentation

関係ない話から。 segmentation といいつつ、文字や文よりも統計処理に向いている単位を探すというのがタスク。 たぶん segmentation / 分割 / 区切り という用語はふさわしくないけれど、 惰性で使っている。 過去の人が使っているから…確率分割済みコーパ…

Word Segmentation as Semi-Supervised Clustering

文字区切りと形態素区切りと文区切りがあることを仮定する。 文字単位から結合を開始する。文末文字と次の文の文頭文字は cannot link 隣り合ってない文字同士は cannot link

Sharon Goldwater

http://www.stanford.edu/~sgwater/ D論ゲット Nonparametric Bayesian Models of Lexical Acquisition いわゆるひとつの Unsupervised Morphological Segmentation です。

適応と過学習

適応は、実際に運用するときのデータに近い傾向の訓練データを使って、 その訓練データ上で過学習を起こさせること。過学習というか過度の適応は避けたいのだけれど、 どの程度適応させるべきかは、 訓練データが実データにどの程度似ているかによる。 極端…

結局適応をやりたいのかスムージングをやりたいのか

アブストラクトでは話し言葉の連語とかを獲得したい、というのが主眼。 で、どの程度適応するのかコントロールするところがキモになる。設定した問題

The Role of Prosodic Phrasing in Korean Word Segmentation

http://www.linguistics.ucla.edu/faciliti/research/skim_diss.pdf

「音声認識用 N-gram 言語モデルの単位の最適化」見直し

最小単位をなににするか? ・文字 ・形態素 ・? 形態素でないにしても、 読みが決定されている必要がある。 音声認識、同字語の曖昧性解消の点からも、読みは有用。音響コンフュサビリティを考慮した単位の必要性: 1モーラしかない単語では、音響モデルで…

「音声認識用 N-gram 言語モデルの単位の最適化」批判

そもそも、N-gram でなく、適応的に文脈長を選ぶべきではないか(PPM*言語モデル?) 形態素/活用の単位の2-gram文脈の情報量は、それなりに一様(1-gram文脈では明らかに不足しているが) 3-gram と 2-gram はけっこう違う。

A Bayesian Approach to DNA Sequence Segmentation

http://www.mas.ncl.ac.uk/~njnsm/seminars/seminars0405/abstracts/boys.pdf

Particle Filter による文脈の動的ベイズ推定(2005)

http://chasen.org/~daiti-m/paper/nl165pf.pdf スライドも。 トピック言語モデル、長距離言語モデルの最先端。

Leaving-one-out Perplexity

Ries さんの方法の全体像:まず、単語をクラスタリングする。 以降、単語の出現の代わりに、クラスの出現を数える。全2-gramを列挙し、それを連結したときの全体の対数尤度の変化をテーブルに保持する。 対数尤度は、2-gramの出現頻度のみで決まる、場合わけ…

ボトムアップなクラスタリングとチャンキングの交互繰り返し

「単語 Unit, Phrase」の獲得と「同類語 Class」の獲得をいっしょにやってしまおうというアイディア。単語とクラスは最初、どちらも文字(形態素でもよい)単語の獲得のために、尤度変化を最大にする連接をくっつけることを繰り返す。 単語そのものの連接で…

Clustering と Chunking

Ries さんの一連の Class-Phrase 言語モデルに関係する研究では、・比較的小さな(それでもドイツ語で数万語レベル)の特定ドメインのコーパスで言語モデルをつくりたい →小さなサンプルから母集団を推定するために、積極的なパターン抽出(クラスタリング)…

Proceedings of the 9th Conference on Computational Natural Language Learning (2005)

http://citeseer.ist.psu.edu/734816.html Morphological Segmentation の新しい論文。 単語変形規則の探索か?

卒論追記

単語同定の必要性(問題設定)に関する議論が必要。言語モデル構築のためには、単語同定は必ずしも必要ではなく、 文字単位で構築することは可能。 ただ、計算の容易な固定長N-gramでは、精度と性能を両立するNが見付かる見込みが薄い。 → 「一定の長さの列…

Identifying Hierarchical Structure in Sequences -- A linear-time algorithm - Nevill-Manning, Witten (ResearchIndex)

http://citeseer.ist.psu.edu/nevill-manning97identifying.html 文脈自由文法形式での圧縮。 連続する2つの非終端記号の連続が2回以上現れていたら、かならず新しい非終端記号でまとめる、 という制約を設定して、対象データの増加に対してインクリメンタ…

Compressed Pattern Matching for SEQUITUR - Mitarai, Hirao, Matsumoto, Shinohara, Takeda, Arikawa (ResearchIndex)

http://citeseer.ist.psu.edu/mitarai00compressed.html 圧縮されたデータ上でのパターンマッチング。 階層、非階層の辞書式圧縮の展開法の統一的な枠組も。

教師なし単語分割と言語モデリング

フィンランド語、トルコ語、アラビア語における、 単語から形態素への分割の研究と、 中国語、日本語における、文から単語への分割の研究。前者については、多くの研究がある。 音声認識につなげた事例もあるが、音素との対応付けには何も問題がないのだろう…

卒論修正

L_corp の説明、単語数で数えた辞書の長さ → 〜コーパスの長さ 2-gram の辞書の符号長の定義でマイナスが抜けている

読み付与

そういえば、文字でなく形態素からはじめれば、読みはついてる。 形態素解析の誤りも入ってきてしまうけれど。

Shiho Nobesawa

http://iskig11.is.noda.tus.ac.jp/~shiho/paper.ja.html 音韻的類似に注目した言語モデリング? 大山 景詞, 延澤 志保, 太原 育夫, 音声認識システムにおける音韻的類似表現を考慮した言語モデルのタスク適応, 情報処理学会 第68回全国大会, no.5M-5, 工学…

Segmenting sentences into linky strings using d-bigram statistics

http://portal.acm.org/citation.cfm?id=993271 Step 2-gram を用いた相互情報量の増減により、単語境界を判定。

The Sparse Data Problem in Statistical Language Modeling and Unsupervised Word Segmentation (ResearchIndex)

http://citeseer.ist.psu.edu/489036.html 教師なし単語分割に関する、博士論文。 中国語の分割をやっている、Fuchun Peng さん。

符号化するなら、確率表も送らないと復元できない

麻生さんからの御指摘。 秋葉先生からも、一度言われていたが。辞書 0-gram、コーパス 1-gram の場合は、 辞書に確率表は不要で、 コーパスに対する確率表は、 辞書エントリに固定長の確率部を追加したと考えればよい。 この場合は、結局確率表を符号化しな…

茶筌と kakasi の読み付与

> chasen 今日 キョウ 今日 名詞-副詞可能 の ノ の 助詞-連体化 輪講 リンコウ 輪講 名詞-サ変接続 の ノ の 助詞-連体化 際 サイ 際 名詞-非自立-副詞可能 、 、 、 記号-読点 御 ゴ 御 接頭詞-名詞接続 紹介 ショウカイ 紹介 名詞-サ変接続 し シ する 動…

卒論追記

A \neq B を仮定するとき、 A = B はどう処理するのかを書いてない。式が横に長すぎる箇所がある。 また、大量の場合分けは、最初のいくつかについて文章で述べ、導出手順を示し、 残りは結果を表にまとめ、導出は付録とする。ベースラインである形態素解析…