mtbrの日記

2005-07-01から1ヶ月間の記事一覧

Gentoo Linux Documentation -- Power Management Guide

gentoo linux net

http://www.gentoo.org/doc/en/power-management-guide.xml CPU、ディスプレイ、ハードディスクの電力消費を抑えるための方法。特定のハードウェアに依存して書かれているので、そのまま適用はできないが、参考にはなる。

Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus

segmentation algorithm

\bibitem{yamamoto} {Mikio Yamamoto, Kenneth W. Church}, ``Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus'', 2001.すべての部分文字列の単語頻度を一気に計算する、というもの。まさしくいまや…

Mostly-Unsupervised Statistical Segmentation of Japanese

segmentation

\bibitem{ando} {Rie Kubota Ando, Lillian Lee}, ``Mostly-Unsupervised Statistical Segmentation of Japanese: Applications to Kanji'',漢字列→単語の分割の手法。頻度の高いN-gram部分を分けないようにし、頻度が落ちるところで分ける。漢字しか対象…

■

HOWTO PowerNow!

gentoo linux net

http://gentoo-wiki.com/howto_powernow! AMD Athlon XP でサポートされているらしいCPUの電力消費を抑える機能。 ↓こんな感じでカーネルオプションを設定。 [*] Power Management support CPU Frequency scaling ---> [*] CPU Frequency scaling < > /proc/…

HOWTO Auto mount filesystems (AUTOFS)

gentoo linux net

http://gentoo-wiki.com/howto_auto_mount_filesystems_(autofs) Gentoo の場合、USEフラグ amd も一応有効にする。（あまり使われていないみたいだけど） autofs は、「アクセスされたときにマウントする」ので、一見動いてないように見える。しかし、アク…

projects/segment/ex-seg.pl

segmentation

頻度計算の案：辞書を単語長別に区分し、それぞれ辞書式順序でソート接尾辞配列には「共通範囲」の付加情報を付ける n 文字の単語の先頭から順に、接尾辞配列の接尾辞の先頭 n 文字を見てそれが単語と一致していたら、共通範囲がn以上である限り、カウン…

頻度計算

segmentation

よく考えたら、頻度は辞書更新に対して、インクリメンタルに計算できるような。最初は普通に数える。（接尾辞配列の先頭1文字だけを見れば良い）単語 A と単語 B と、新規単語 AB が与えられたとする。新規単語 AB の頻度 = f[AB]を計算。（接尾辞配列上…

新単語発見

segmentation

「頻度の高い単語から分岐させて、新単語を作る」：もっとも頻度の高い単語を選ぶそれに続く単語の中でもっとも頻度の高い単語を選ぶ両者をつなげたものを新単語とする「頻度の高いbigramを新単語とする」…すべてのbigramの頻度を計算： n文字 bigram の…

projects/segment/ex-seg.pl (produce_new_words($$))

segmentation

「頻度の高い単語から分岐」を、とりあえず採用。辞書のエントリに、頻度と接尾辞配列へのリンクをつけた。

インクリメンタルな頻度計算に問題

segmentation

包含されたときに頻度を減らす、としていたが、既に別の単語に包含されていたものを改めて包含するときに、重複して減らすことになる。例： b が bc に包含されている状態で、ab が生成されたとする。 abの頻度分だけ、b の頻度を減らすと、 abc というシ…

頻度計算のもうひとつの問題

segmentation

aaaa のようなシークェンスを含む文字列で、単語 aa の頻度を接尾辞配列上で調べるとする。接尾辞配列をつかって調べると、その箇所で 3 回と数えてしまう。しかし、単語分割における頻度としては、せいぜい2回（まんなかの2つしかとれなければ、1回）であ…

projects/segment/ex-seg.pl (get_freq($$$$))

segmentation

頻度計算に接尾辞配列をどう使っていいかが分からない。接尾辞配列を使うと、多数の単語の頻度を高速に計算できる気がするんだけど…案：辞書を辞書式順序でソート辞書の先頭と接尾辞配列の先頭から順に、一致をみる辞書に構造を持たせる： a => { '' => …

chalow

net linux

http://nais.to/~yto/tools/chalow/ Y's memo経由で知り、始めてみた。 emacs で編集モードが標準組み込まれている。 HTML に変換するときカテゴリ分けが階層型でなく多重型。

単語分割第一弾

segmentation

接尾時配列を使った単語分割プログラムを作りはじめた。アルゴリズムは以下の通り。分割は辞書に登録されている単語との最長一致で行う辞書は初期状態で、各文字が登録されている頻繁に現れる”2単語の連なり”を辞書に登録する、という作業を繰り返す分…

cperl-mode

emacs linux

emacs の新しい方の Perl 編集モード。古い方の perl-mode と比べ、Perl 5.x の文法に対応している感じ。