Learning a Syntagmatic and Paradigmatic Structure from Language (1998)

net

http://www.cs.mu.oz.au/acl/p/p98/p98-1047.pdf multigram ベースの 2-gram モデル。 phrase ベースとの違いは、結合された単位の中の内部構造を保存し、あとで見ていること。class モデルも同時に推定。論文タイトルは、「統語構造と語彙構造の学習」 [20…

2006-02-17

英数字アルファベット化

perl

#! /usr/bin/env perl use strict; use warnings; my @a=qw(ZERO ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE); my $s = ''; while ( <> ) { chomp; s|[0-9]+|join ' ', @a[split //, $&]|exg; tr/a-z/A-Z/; s/[^A-Z ]//g; $s .= "$_ "; } $s =~ s/\n/ /g…

2006-02-17

各行が X 文字以内でもっとも多くの単語を含むように改行を挿入

perl

#! /usr/bin/env perl # convert a long line to fixed-length lines by adding line breaks use strict; use warnings; use Getopt::Long; my $line_length = 60; GetOptions('line-length=i' => \$line_length); my @to_print = (); my $to_print_length =…

2006-02-17

シーザー暗号

perl

perl -pe'tr/ A-Z/H-Z A-G/; $_' perl -pe'tr/ A-Z/P-Z A-O/; $_' perl -pe'tr/ A-Z/D-Z A-C/; $_'

2006-02-17

ランダムに行抽出

perl

perl -e'@a = <>; srand; print @a[map int rand()*scalar(@a), (1 .. 100)]'

2006-02-17

unsupervised な大域言語モデルと近接言語モデルの融合

lm

大域言語モデル：どのような語彙が使われているか。ユニグラム。近接言語モデル：どのような単語の連続が許されるか。バイグラム以上。言語モデルの適応は、厳密には、トピックに対してなされるべき。トピックは、入力データを知る前には分からない。音声…

2006-02-17

A reading list on Bayesian methods

stat net

http://cog.brown.edu/~gruffydd/bayes.html

2006-02-17

Latent Dirichlet Allocation

stat nlp net

http://citeseer.ist.psu.edu/blei03latent.html ベイズ推定によるテキストモデル（長距離言語モデル）

2006-02-17

Numerical Prefixes

lx net

http://phrontistery.info/numbers.html Greek prefixes: mono- di- tri- tetra- penta- hex- hept- oct- ennea- dec- deca- Latin prefixes uni- bi- duo- tri- quadri- quart- quinque- quint- sex- sept- oct- nonus- novem- dec- deca-

mtbrの日記

2006-02-17から1日間の記事一覧

Learning a Syntagmatic and Paradigmatic Structure from Language (1998)

英数字アルファベット化

各行が X 文字以内でもっとも多くの単語を含むように改行を挿入

シーザー暗号

ランダムに行抽出

unsupervised な大域言語モデルと近接言語モデルの融合

A reading list on Bayesian methods

Latent Dirichlet Allocation

Numerical Prefixes