2005-12-01から1ヶ月間の記事一覧
[src] \newcommand\Draft[1]{ \ifdraft{\hfill \bf ■---\texttt{DRAFT}--- #1 ---\texttt{DRAFT}---■ \hspace{-2em}}\fi } [/src] \Draft{あとで図を} のように使うと、 \documentclass[draft] のときだけ表示される。
debian の nfs-user-server はロックをサポートしていない。.svk/local/locks/*.lock を削除すると、NFS経由でなくても、常にロックに失敗する。
error while loading shared libraries: libgcc_s.so.1: cannot open shared object file: No such file or directory so ファイル、もしくは呼出元の実行ファイルが壊れたか、と思ったが、 よく考えると、見付からない、というのはパス情報が壊れているとい…
汎用の教師なし単語分割では、EM アルゴリズムを使うのはけっこうメジャーらしい。 ~~~~~~ ローカルには尤度最大の分割を与えることができる。単語候補となりうる文字列を蓄えた辞書を使って、 期待値最大化。まず辞書を収集してから、 分割を適用し、あいま…
パープレキシティで評価しているが、その目的は? → 言語モデルの性能向上。(背景の説明が伝わらなかった) 背景の説明が不十分。 言語モデルの性能は、具体的なシステムに組み込んでみないとわからない。 パープレキシティ最小化ならば、もっと単純な方法…
非自然言語データの上で確率的言語モデルを構築し、圧縮する。 単語分割(WX法)とクラス推定を、教師なし学習により行う。まず、単語の最大長 n を与えた上で、 suffix array の一致数(辞書順ソートでの隣接接尾辞の最長共通接頭辞の長さ)の切り替わりを…
梅村先生: Viterbi アルゴリズムを使った岡野原さんの手法の情報をいただいた。宇野先生: 過学習はなぜ、どんなとき起こるのか。 → 極端な例として、全体が1単語夏井先生: オープンとクローズドで、なぜこれほど性能が違うのか。 → データ不足と考えている
過学習を避ける方法。 推定用にはあって、評価用にはない、という N-gram ができることがあるので、 バックオフが必須。 あと、評価用のために過学習すると本末転倒なので、 交差検定のようなことをする必要があるかと。
pdfnup --nup 2x3 --delta "0 2cm" --frame true xxx.pdf pdfnup は、pdfjam というパッケージにはいってる。PDFファイルを生成する仮想プリンタ cups-pdf と組み合わせると、 けっこう柔軟に拡大縮小ができるっぽい。
言語、認知、発達心理学の方面: 単語の分節化としての Word Segmentation 音声系列を単語列として認識すること。 Word Boundary Identification単語区切りのある言語、特に高度に屈折的な言語: 単語から形態素列への分割としての Word Segmentation Morpho…
diff ↓だいたい等価↑ foo > tmp1; bar > tmp2; diff tmp1 tmp2 ちなみに echo とすると、 /dev/fd/63 /dev/fd/62 のように表示され、プログラムの出力を読むためのファイルが作られていることが分かる。
2単語の連結を基本操作としてえらび、 各ステップで連結を貪欲に行うことを選んだ時点で、 計算すべきことが 2 つできた。連結の適用: もっとも簡単なのは、コーパス全体を大きさ2の窓で走査して、連結を適用するもの。 ただし、コーパス全体がセグメント…
/* 分数 m/n を通分する */ int reduce(int *m, int *n) { int g = gcd(*m, *n); *m /= g; *n /= g; } int enum_combination(int n, int k) { /* C(n,k) = n / k * C(n-1,k-1) というように求める */ /* 答えがオーバーフローしない範囲の k は、それほど大…
perl -e 'print eval qq{"$ARGV[0]"};' "hoge\n" で、hoge のあとに改行が表示される。 eval qq{"$ARGV[0]"} --> "hoge\n" をPerlプログラムとして評価 --> hoge のあとに改行があるという文字列 perl -e 'print "$ARGV[0]";' "hoge\n" perl -e 'print $ARGV…
Sparse Suffix Tree とは、Krisztian さんの論文[2005-11-02-1]で紹介されている、 単語単位 Suffix Tree のようなもの。 形式的には、文字列と文字列中でのすべての単語の開始位置(区切り記号の位置 -1)が与えられたとき、 単語の開始位置から始まる suff…
http://ci.nii.ac.jp/cinii/servlet/quotdisp?uselang=jp&docid=20006641851&dispflg=2 著者名 : 森,信介 : MORI,Shinsuke 所属 : 日本アイ・ビー・エム株式会社東京基礎研究所 : IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. 論文名 : …
http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/research.html 2004年 1. 生コーパスからの単語 N-gram 確率の推定(311[KB], PS) * 森 信介, 宅間 大介 * 情報処理学会自然言語処理研究会 (2004)
表題:言語モデル性能指標を基準にした文分割 / Sentence Segmention based on Language Model Performance 概要:自然言語処理において、統計的言語モデルは音声認識、機械翻訳など幅広い応用に用いられている基礎的手法のひとつである。統計的言語モデルは…
2-gram エントロピー最小化の方法は、1-gram よりも少ない連結しかしない。 2-gram 確率を使うため、スパースネスが大きいのが原因だと思う。 データを増やすか、確率推定にスムージングを施す必要がある。
辞書の符号化はいまのところ 0-gram(等しい長さ)の符号化。 これは効率の悪い符号化なので、より効率の良い符号化にすると、 辞書のエントリの増減による、全体の符号長の増減への影響が小さくなる。 とりあえず、辞書内文字単位 1-gram による符号化を予…
http://pitecan.com/geta/
2-gram 言語モデルの closed なパープレキシティはたしかに低い 2-gram 言語モデルの open なパープレキシティも低め 3-gram 言語モデルの closed/open パープレキシティは低くない 2-gram ヒットが増えた分、3-gram ヒットは減っている。 原理上、確率推定…