2005-12-01から1ヶ月間の記事一覧

draft オプションがあるときだけ表示

[src] \newcommand\Draft[1]{ \ifdraft{\hfill \bf ■---\texttt{DRAFT}--- #1 ---\texttt{DRAFT}---■ \hspace{-2em}}\fi } [/src] \Draft{あとで図を} のように使うと、 \documentclass[draft] のときだけ表示される。

NFS上で、svk のロックがうまくいかない

debian の nfs-user-server はロックをサポートしていない。.svk/local/locks/*.lock を削除すると、NFS経由でなくても、常にロックに失敗する。

いろんなプログラムが動的リンクに失敗する

error while loading shared libraries: libgcc_s.so.1: cannot open shared object file: No such file or directory so ファイル、もしくは呼出元の実行ファイルが壊れたか、と思ったが、 よく考えると、見付からない、というのはパス情報が壊れているとい…

Self-supervised Chinese Word Segmentation

汎用の教師なし単語分割では、EM アルゴリズムを使うのはけっこうメジャーらしい。 ~~~~~~ ローカルには尤度最大の分割を与えることができる。単語候補となりうる文字列を蓄えた辞書を使って、 期待値最大化。まず辞書を収集してから、 分割を適用し、あいま…

NTT-TUT ミーティングでの質問と意見

パープレキシティで評価しているが、その目的は? → 言語モデルの性能向上。(背景の説明が伝わらなかった) 背景の説明が不十分。 言語モデルの性能は、具体的なシステムに組み込んでみないとわからない。 パープレキシティ最小化ならば、もっと単純な方法…

岡野原大輔 『汎用的データにおける確率的言語モデルの抽出とその応用』

非自然言語データの上で確率的言語モデルを構築し、圧縮する。 単語分割(WX法)とクラス推定を、教師なし学習により行う。まず、単語の最大長 n を与えた上で、 suffix array の一致数(辞書順ソートでの隣接接尾辞の最長共通接頭辞の長さ)の切り替わりを…

特別実験報告会での質問と意見

梅村先生: Viterbi アルゴリズムを使った岡野原さんの手法の情報をいただいた。宇野先生: 過学習はなぜ、どんなとき起こるのか。 → 極端な例として、全体が1単語夏井先生: オープンとクローズドで、なぜこれほど性能が違うのか。 → データ不足と考えている

確率推定用コーパスとパープレキシティ評価用コーパスを分ける

過学習を避ける方法。 推定用にはあって、評価用にはない、という N-gram ができることがあるので、 バックオフが必須。 あと、評価用のために過学習すると本末転倒なので、 交差検定のようなことをする必要があるかと。

pdf を縮小してタイル状に配置

pdfnup --nup 2x3 --delta "0 2cm" --frame true xxx.pdf pdfnup は、pdfjam というパッケージにはいってる。PDFファイルを生成する仮想プリンタ cups-pdf と組み合わせると、 けっこう柔軟に拡大縮小ができるっぽい。

Word Segmentation

lx

言語、認知、発達心理学の方面: 単語の分節化としての Word Segmentation 音声系列を単語列として認識すること。 Word Boundary Identification単語区切りのある言語、特に高度に屈折的な言語: 単語から形態素列への分割としての Word Segmentation Morpho…

一時ファイルを作らずにプログラムの出力を diff

diff ↓だいたい等価↑ foo > tmp1; bar > tmp2; diff tmp1 tmp2 ちなみに echo とすると、 /dev/fd/63 /dev/fd/62 のように表示され、プログラムの出力を読むためのファイルが作られていることが分かる。

連結対象を選ぶことと、連結をコーパス全体に適用すること

2単語の連結を基本操作としてえらび、 各ステップで連結を貪欲に行うことを選んだ時点で、 計算すべきことが 2 つできた。連結の適用: もっとも簡単なのは、コーパス全体を大きさ2の窓で走査して、連結を適用するもの。 ただし、コーパス全体がセグメント…

2項係数の計算でオーバーフローを防ぐ

/* 分数 m/n を通分する */ int reduce(int *m, int *n) { int g = gcd(*m, *n); *m /= g; *n /= g; } int enum_combination(int n, int k) { /* C(n,k) = n / k * C(n-1,k-1) というように求める */ /* 答えがオーバーフローしない範囲の k は、それほど大…

R. セジウィック, "アルゴリズム 第2巻=探索・文字列・計算幾何"

ハードコーディングせずに、バックスラッシュによるエスケープ文字

perl -e 'print eval qq{"$ARGV[0]"};' "hoge\n" で、hoge のあとに改行が表示される。 eval qq{"$ARGV[0]"} --> "hoge\n" をPerlプログラムとして評価 --> hoge のあとに改行があるという文字列 perl -e 'print "$ARGV[0]";' "hoge\n" perl -e 'print $ARGV…

Suffix Tree から Sparse Suffix Tree への変換

Sparse Suffix Tree とは、Krisztian さんの論文[2005-11-02-1]で紹介されている、 単語単位 Suffix Tree のようなもの。 形式的には、文字列と文字列中でのすべての単語の開始位置(区切り記号の位置 -1)が与えられたとき、 単語の開始位置から始まる suff…

Ravindra K.Ahuja, Thomas L. Magnanti and James B. Orlin, "Network Flows"

森信介, 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)

http://ci.nii.ac.jp/cinii/servlet/quotdisp?uselang=jp&docid=20006641851&dispflg=2 著者名 : 森,信介 : MORI,Shinsuke 所属 : 日本アイ・ビー・エム株式会社東京基礎研究所 : IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. 論文名 : …

森 信介, 宅間 大介, 生コーパスからの単語 N-gram 確率の推定

http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/research.html 2004年 1. 生コーパスからの単語 N-gram 確率の推定(311[KB], PS) * 森 信介, 宅間 大介 * 情報処理学会自然言語処理研究会 (2004)

特別実験報告会予稿(言語モデル最適化バージョン2)

表題:言語モデル性能指標を基準にした文分割 / Sentence Segmention based on Language Model Performance 概要:自然言語処理において、統計的言語モデルは音声認識、機械翻訳など幅広い応用に用いられている基礎的手法のひとつである。統計的言語モデルは…

符号化のときの確率推定にも汎化を考慮する

2-gram エントロピー最小化の方法は、1-gram よりも少ない連結しかしない。 2-gram 確率を使うため、スパースネスが大きいのが原因だと思う。 データを増やすか、確率推定にスムージングを施す必要がある。

辞書の符号化を文字1-gramの符号化にする

辞書の符号化はいまのところ 0-gram(等しい長さ)の符号化。 これは効率の悪い符号化なので、より効率の良い符号化にすると、 辞書のエントリの増減による、全体の符号長の増減への影響が小さくなる。 とりあえず、辞書内文字単位 1-gram による符号化を予…

GETAによるファイル全文検索

http://pitecan.com/geta/

考察(予想)

2-gram 言語モデルの closed なパープレキシティはたしかに低い 2-gram 言語モデルの open なパープレキシティも低め 3-gram 言語モデルの closed/open パープレキシティは低くない 2-gram ヒットが増えた分、3-gram ヒットは減っている。 原理上、確率推定…