2005-11-01から1ヶ月間の記事一覧
http://www.iccs.informatics.ed.ac.uk/~osborne/msc-projects/siriwan.pdf 過去の研究のレビューがしっかりしてる。
[2005-10-26] の実例。 ###### 11998 ##### 11998 血 病 -0.194656672504451 11906 # size += -0.194656672504451 bits on joint of 血 病###### 11999 ##### 11999 白 血病 -17.2073810573173 11907 # size += -17.2073810573173 bits on joint of 白 血病 …
言語モデルの性能評価に用いる指標。 言語モデルが持つ「言語」の複雑さを表すもので、 あたえられた対象文字列に対応する「単語列」の場合の数の期待値(?)を表す。 (候補が多くても、確率が高いのがそのうちの少数であれば、パープレキシティは低い) …
言語処理学会の「自然言語処理」1999年 Volume 6 Number 2 より(1999年1月発行)。 文字集合と「2回以上出現した全部分文字列」の集合の和を、superword の集合と定義し、 全superwordを等確率とする初期状態から始まる前向き後向きアルゴリズムによって確…
訓練データに出現しない文字が実データに現れたら。単語 n-gram 確率(訓練データが「単語」を生成するn-1重マルコフモデルで生成されたと仮定したときの確率)を最尤推定で求める場合、 訓練データに出現する n-gram(n単語の連接)に対しては、 いつも確率…
http://ge.nii.ac.jp/ 論文、書籍、科研費研究成果などをまとめて検索できる。(対象は日本語) が、論文検索だけ使えない。 一時的なメンテナンスか、もしかして登録必要?
[2005-09-13-2]のときは、あくまで教師あり学習での分割と考えていたが、 データ構造などは利用できるかも。「PPM*」の方法は、単語分割を「文字列→区切り列」のラベルづけ問題として解いている。 文字単位 3-gram モデルを用いた例がまず述べられ、 次に言…
http://debian.fam.cx/index.php?japanese 日本語環境を整えるための Tips。 debian 以外にも使えるものもある。
http://www.cs.umass.edu/~mccallum/ 言語処理への Conditional Random Field の適用。
http://rchi.raskincenter.org/index.php?title=home The Humane Interface の実装: Archy
http://compling.ai.uiuc.edu/rws/newindex/publications.html#tutorials チュートリアル Corpus-Based Methods in Chinese Morphology など。 単語の定義に関する議論の紹介、 中国語の形態論の概説、
#! /usr/bin/perl -w use strict; use encoding 'euc-jp'; use open ':encoding(euc-jp)'; use open ':std'; while ( <> ) { s/[\x{0000}-\x{00FF}]//g; print; }改行もASCIIなのに注意。
VisualizationViewer は Serializable だからグラフの保存[2005-11-03]は簡単……かと思いきや、 どうもスーパークラスの JPanel がSerializable なだけで、実装はされていないらしい。 faqにも、コード募集中と書かれている。Serialized Form (JUNG 1.7.1 API…
Node のカウンタが static なのはどうもまずい。(シリアライズがめんどう) SuffixTree のインスタンスフィールドにして…
15GB のファイル log に対して、 grep -v "^## " log | fgrep -v "[[[" > extracted のような grep をかけたら、2日経っても終わらない。やりたかったのは、先頭が '## ' でも '[[[' でもない行を抜き出すこと。 そういう行はファイル全体(数千万行?)のう…
http://hunch.net/ 機械学習の理論に関するブログ。 Computational Complexityのブログとか、 Quantum Algorithmsのブログも。
http://www.matsumoto.nuem.nagoya-u.ac.jp/eguchi/index.html#acro Acrobat Reader で表示できるのに印刷できないという問題。 postscript に変換してみると、ghostview がエラーを吐く。 よく分からないが、指定されているフォント(HeiseiMaruGo-W4)が見…
ひらがなと漢字の出現確率が違いすぎるのが、連結が不均一になる原因の気がする。 単語辞書の符号化のとき、文字出現確率を用いた最適符号にすべきかも。 漢字はひらがなより符号長が長いので、 辞書での統合(統合により連結前の単語が辞書からなくなる) …
http://www.cs.cmu.edu/~aberger/maxent.html 最大エントロピー法のチュートリアルA Brief Maxent Tutorialなど。 2000年以前で最新とはいいがたいが、わかりやすい。
http://d.hatena.ne.jp/amt/20051007/acroread7 mozplugger の acroread の呼び出しかたが古くて動かないのを修正。 application/pdf: pdf: PDF file application/x-pdf: pdf: PDF file text/pdf: pdf: PDF file text/x-pdf: pdf: PDF file # repeat swallow…
http://www.matome.jp/ blog の検索。 Google Blog Searchの方がいいかな。 英語だけど、運営プログラムが共通なせいか日本語もよく引っかかる。
ChangeLog の特定カテゴリのエントリに"p:"の印を付けるプログラム。 #! /usr/bin/perl use strict; use warnings; use Getopt::Long; my @priv_categories; GetOptions('private=s@' => \@priv_categories); print STDERR "privatizing ", map("[$_]",@priv…
長さ n のランダムな2進列があります。 0の数と1の数が分かっているものとします。 また 00、01、10、11の数も分かっています。 ただし 00 と 11 の数は、重複ありで数えたものです。 これらから、00 または 11 の重複無しでの数を求められますか? 証明、ま…
ある単語区切りを消したときのDL減少分が大きいほど”結合強度”が弱く、 減少分が小さいほど結合強度が強いといえるのでは。
Kriszti'an Monostori et al., Suffix vector: space- and time-efficient alternative to suffix trees ACM掲載の論文。短くまとめられているが、わかりにくい。 同氏の博士論文 ドキュメント集合から部分一致チャンクを見つけ出す、というシステム。 その…
Gusfield, "Algorithms on Strings, Trees and Sequences" 7.7.節より。 suffix tree の方で、枝を結んでしまえばいい、ということ。 索引(部分文字列を入力してその出現位置を得る)としての機能は失われるが、 出現回数はわかる。
Ukkonen のアルゴリズムで付加される Suffix Link を利用する。 Suffix Link は下層から上層のノードに向かう枝であり、 元のノードと先のノードには、 「根から元のノードまでのラベルの先頭を取り除くと、根から先のノードまでのラベルになる」 という関係…
http://eclipsewiki.net/eclipse/?frontpage 統合開発環境 Eclipse の日本語 Wiki。 プラグインの紹介など。 TeXlipse homepageとか便利そう。 Eclipse 3.1.1 非ネイティブランゲージ版では、 日本語版の「ヘルプ -> ソフトウェア更新 -> 更新マネージャ」が…