Unsupervised Segmentation for Statistical Machine Translation

net segmentation

http://www.iccs.informatics.ed.ac.uk/~osborne/msc-projects/siriwan.pdf 過去の研究のレビューがしっかりしてる。

2005-11-15

2単語より長い連接

segmentation

[2005-10-26] の実例。 ###### 11998 ##### 11998 血病 -0.194656672504451 11906 # size += -0.194656672504451 bits on joint of 血病###### 11999 ##### 11999 白血病 -17.2073810573173 11907 # size += -17.2073810573173 bits on joint of 白血病 …

2005-11-13

単語単位、文字単位パープレキシティ

segmentation nlp

言語モデルの性能評価に用いる指標。言語モデルが持つ「言語」の複雑さを表すもので、あたえられた対象文字列に対応する「単語列」の場合の数の期待値（？）を表す。（候補が多くても、確率が高いのがそのうちの少数であれば、パープレキシティは低い） …

2005-11-13

森大毅ら 1999 単語知識を必要としない高精度な言語モデル

segmentation

言語処理学会の「自然言語処理」1999年 Volume 6 Number 2 より（1999年1月発行）。文字集合と「2回以上出現した全部分文字列」の集合の和を、superword の集合と定義し、全superwordを等確率とする初期状態から始まる前向き後向きアルゴリズムによって確…

2005-11-13

文字単位でもスムージングは必要

segmentation nlp

訓練データに出現しない文字が実データに現れたら。単語 n-gram 確率（訓練データが「単語」を生成するn-1重マルコフモデルで生成されたと仮定したときの確率）を最尤推定で求める場合、訓練データに出現する n-gram（n単語の連接）に対しては、いつも確率…

2005-11-13

Genii 学術コンテンツ・ポータルサイト

net

http://ge.nii.ac.jp/ 論文、書籍、科研費研究成果などをまとめて検索できる。（対象は日本語）が、論文検索だけ使えない。一時的なメンテナンスか、もしかして登録必要？

2005-11-13

「PPM*言語モデルを用いた単語分割」再考

segmentation

[2005-09-13-2]のときは、あくまで教師あり学習での分割と考えていたが、データ構造などは利用できるかも。「PPM*」の方法は、単語分割を「文字列→区切り列」のラベルづけ問題として解いている。文字単位 3-gram モデルを用いた例がまず述べられ、次に言…

2005-11-11

Japanese - Debian GNU/Linux スレッドテンプレ

debian linux net

http://debian.fam.cx/index.php?japanese 日本語環境を整えるための Tips。 debian 以外にも使えるものもある。

2005-11-10

Andrew McCallum's Home Page

learning people nlp algorithm stat net

http://www.cs.umass.edu/~mccallum/ 言語処理への Conditional Random Field の適用。

2005-11-09

Home - Raskin Center

ui net

http://rchi.raskincenter.org/index.php?title=home The Humane Interface の実装: Archy

2005-11-09

Richard Sproat Publications

lx nlp net

http://compling.ai.uiuc.edu/rws/newindex/publications.html#tutorials チュートリアル Corpus-Based Methods in Chinese Morphology など。単語の定義に関する議論の紹介、中国語の形態論の概説、

2005-11-09

ASCII 文字除去スクリプト

perl

#! /usr/bin/perl -w use strict; use encoding 'euc-jp'; use open ':encoding(euc-jp)'; use open ':std'; while ( <> ) { s/[\x{0000}-\x{00FF}]//g; print; }改行もASCIIなのに注意。

2005-11-08

Serialization, Externalization

java

VisualizationViewer は Serializable だからグラフの保存[2005-11-03]は簡単……かと思いきや、どうもスーパークラスの JPanel がSerializable なだけで、実装はされていないらしい。 faqにも、コード募集中と書かれている。Serialized Form (JUNG 1.7.1 API…

2005-11-08

SuffixTree.java

java

Node のカウンタが static なのはどうもまずい。(シリアライズがめんどう） SuffixTree のインスタンスフィールドにして…

2005-11-08

15GB の grep

perl linux

15GB のファイル log に対して、 grep -v "^## " log | fgrep -v "[[[" > extracted のような grep をかけたら、2日経っても終わらない。やりたかったのは、先頭が '## ' でも '[[[' でもない行を抜き出すこと。そういう行はファイル全体（数千万行？）のう…

2005-11-08

Machine Learning (Theory)

math learning algorithm net

http://hunch.net/ 機械学習の理論に関するブログ。 Computational Complexityのブログとか、 Quantum Algorithmsのブログも。

2005-11-08

Acrobat Reader で印刷

postscript net

http://www.matsumoto.nuem.nagoya-u.ac.jp/eguchi/index.html#acro Acrobat Reader で表示できるのに印刷できないという問題。 postscript に変換してみると、ghostview がエラーを吐く。よく分からないが、指定されているフォント（HeiseiMaruGo-W4）が見…

2005-11-08

辞書の符号化

segmentation

ひらがなと漢字の出現確率が違いすぎるのが、連結が不均一になる原因の気がする。単語辞書の符号化のとき、文字出現確率を用いた最適符号にすべきかも。漢字はひらがなより符号長が長いので、辞書での統合（統合により連結前の単語が辞書からなくなる） …

2005-11-08

Maximum Entropy

math nlp net

http://www.cs.cmu.edu/~aberger/maxent.html 最大エントロピー法のチュートリアルA Brief Maxent Tutorialなど。 2000年以前で最新とはいいがたいが、わかりやすい。

2005-11-07

acrobat reader7 へのアップグレード

gentoo linux net

http://d.hatena.ne.jp/amt/20051007/acroread7 mozplugger の acroread の呼び出しかたが古くて動かないのを修正。 application/pdf: pdf: PDF file application/x-pdf: pdf: PDF file text/pdf: pdf: PDF file text/x-pdf: pdf: PDF file # repeat swallow…

2005-11-05

まとめ検索

net

http://www.matome.jp/ blog の検索。 Google Blog Searchの方がいいかな。英語だけど、運営プログラムが共通なせいか日本語もよく引っかかる。

2005-11-05

bin/privatize_changelog

chalow perl

ChangeLog の特定カテゴリのエントリに"p:"の印を付けるプログラム。 #! /usr/bin/perl use strict; use warnings; use Getopt::Long; my @priv_categories; GetOptions('private=s@' => \@priv_categories); print STDERR "privatizing ", map("[$_]",@priv…

2005-11-04

重なりありの連接頻度から、重なりなしの連接頻度への変換

string math segmentation

長さ n のランダムな2進列があります。 0の数と1の数が分かっているものとします。また 00、01、10、11の数も分かっています。ただし 00 と 11 の数は、重複ありで数えたものです。これらから、00 または 11 の重複無しでの数を求められますか？証明、ま…

2005-11-04

辞書式符号化でのMDL単語分割で得られるスコア

segmentation

ある単語区切りを消したときのDL減少分が大きいほど”結合強度”が弱く、減少分が小さいほど結合強度が強いといえるのでは。

2005-11-02

Suffix Vector 関連論文

string segmentation algorithm

Kriszti'an Monostori et al., Suffix vector: space- and time-efficient alternative to suffix trees ACM掲載の論文。短くまとめられているが、わかりにくい。同氏の博士論文ドキュメント集合から部分一致チャンクを見つけ出す、というシステム。その…

2005-11-02

Suffix Tree の共通部分木を同一視することによって得られる DAG

string algorithm segmentation

Gusfield, "Algorithms on Strings, Trees and Sequences" 7.7.節より。 suffix tree の方で、枝を結んでしまえばいい、ということ。索引（部分文字列を入力してその出現位置を得る）としての機能は失われるが、出現回数はわかる。

2005-11-01

アルファベット拡大における接尾辞木の更新

string algorithm segmentation

Ukkonen のアルゴリズムで付加される Suffix Link を利用する。 Suffix Link は下層から上層のノードに向かう枝であり、元のノードと先のノードには、「根から元のノードまでのラベルの先頭を取り除くと、根から先のノードまでのラベルになる」という関係…

2005-11-01

FrontPage - EclipseWiki

java net

http://eclipsewiki.net/eclipse/?frontpage 統合開発環境 Eclipse の日本語 Wiki。プラグインの紹介など。 TeXlipse homepageとか便利そう。 Eclipse 3.1.1 非ネイティブランゲージ版では、日本語版の「ヘルプ -> ソフトウェア更新 -> 更新マネージャ」が…

mtbrの日記

2005-11-01から1ヶ月間の記事一覧

Unsupervised Segmentation for Statistical Machine Translation

2単語より長い連接

単語単位、文字単位パープレキシティ

森大毅ら 1999 単語知識を必要としない高精度な言語モデル

文字単位でもスムージングは必要

Genii 学術コンテンツ・ポータルサイト

「PPM*言語モデルを用いた単語分割」再考

Japanese - Debian GNU/Linux スレッドテンプレ

Andrew McCallum's Home Page

Home - Raskin Center

Richard Sproat Publications

ASCII 文字除去スクリプト

Serialization, Externalization

SuffixTree.java

15GB の grep

Machine Learning (Theory)

Acrobat Reader で印刷

辞書の符号化

Maximum Entropy

acrobat reader7 へのアップグレード

まとめ検索

bin/privatize_changelog

重なりありの連接頻度から、重なりなしの連接頻度への変換

辞書式符号化でのMDL単語分割で得られるスコア

Suffix Vector 関連論文

Suffix Tree の共通部分木を同一視することによって得られる DAG

アルファベット拡大における接尾辞木の更新

FrontPage - EclipseWiki