2006-02-17から1日間の記事一覧
http://www.cs.mu.oz.au/acl/p/p98/p98-1047.pdf multigram ベースの 2-gram モデル。 phrase ベースとの違いは、結合された単位の中の内部構造を保存し、あとで見ていること。class モデルも同時に推定。 論文タイトルは、「統語構造と語彙構造の学習」 [20…
#! /usr/bin/env perl use strict; use warnings; my @a=qw(ZERO ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE); my $s = ''; while ( <> ) { chomp; s|[0-9]+|join ' ', @a[split //, $&]|exg; tr/a-z/A-Z/; s/[^A-Z ]//g; $s .= "$_ "; } $s =~ s/\n/ /g…
#! /usr/bin/env perl # convert a long line to fixed-length lines by adding line breaks use strict; use warnings; use Getopt::Long; my $line_length = 60; GetOptions('line-length=i' => \$line_length); my @to_print = (); my $to_print_length =…
perl -pe'tr/ A-Z/H-Z A-G/; $_' perl -pe'tr/ A-Z/P-Z A-O/; $_' perl -pe'tr/ A-Z/D-Z A-C/; $_'
perl -e'@a = <>; srand; print @a[map int rand()*scalar(@a), (1 .. 100)]'
大域言語モデル:どのような語彙が使われているか。ユニグラム。 近接言語モデル:どのような単語の連続が許されるか。バイグラム以上。言語モデルの適応は、厳密には、トピックに対してなされるべき。 トピックは、入力データを知る前には分からない。 音声…
http://cog.brown.edu/~gruffydd/bayes.html
http://citeseer.ist.psu.edu/blei03latent.html ベイズ推定によるテキストモデル(長距離言語モデル)
http://phrontistery.info/numbers.html Greek prefixes: mono- di- tri- tetra- penta- hex- hept- oct- ennea- dec- deca- Latin prefixes uni- bi- duo- tri- quadri- quart- quinque- quint- sex- sept- oct- nonus- novem- dec- deca-