2006-02-17から1日間の記事一覧

Learning a Syntagmatic and Paradigmatic Structure from Language (1998)

net

http://www.cs.mu.oz.au/acl/p/p98/p98-1047.pdf multigram ベースの 2-gram モデル。 phrase ベースとの違いは、結合された単位の中の内部構造を保存し、あとで見ていること。class モデルも同時に推定。 論文タイトルは、「統語構造と語彙構造の学習」 [20…

英数字アルファベット化

#! /usr/bin/env perl use strict; use warnings; my @a=qw(ZERO ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE); my $s = ''; while ( <> ) { chomp; s|[0-9]+|join ' ', @a[split //, $&]|exg; tr/a-z/A-Z/; s/[^A-Z ]//g; $s .= "$_ "; } $s =~ s/\n/ /g…

各行が X 文字以内でもっとも多くの単語を含むように改行を挿入

#! /usr/bin/env perl # convert a long line to fixed-length lines by adding line breaks use strict; use warnings; use Getopt::Long; my $line_length = 60; GetOptions('line-length=i' => \$line_length); my @to_print = (); my $to_print_length =…

シーザー暗号

perl -pe'tr/ A-Z/H-Z A-G/; $_' perl -pe'tr/ A-Z/P-Z A-O/; $_' perl -pe'tr/ A-Z/D-Z A-C/; $_'

ランダムに行抽出

perl -e'@a = <>; srand; print @a[map int rand()*scalar(@a), (1 .. 100)]'

unsupervised な大域言語モデルと近接言語モデルの融合

lm

大域言語モデル:どのような語彙が使われているか。ユニグラム。 近接言語モデル:どのような単語の連続が許されるか。バイグラム以上。言語モデルの適応は、厳密には、トピックに対してなされるべき。 トピックは、入力データを知る前には分からない。 音声…

A reading list on Bayesian methods

http://cog.brown.edu/~gruffydd/bayes.html

Latent Dirichlet Allocation

http://citeseer.ist.psu.edu/blei03latent.html ベイズ推定によるテキストモデル(長距離言語モデル)

Numerical Prefixes

http://phrontistery.info/numbers.html Greek prefixes: mono- di- tri- tetra- penta- hex- hept- oct- ennea- dec- deca- Latin prefixes uni- bi- duo- tri- quadri- quart- quinque- quint- sex- sept- oct- nonus- novem- dec- deca-