2005-07-01から1ヶ月間の記事一覧

Gentoo Linux Documentation -- Power Management Guide

http://www.gentoo.org/doc/en/power-management-guide.xml CPU、ディスプレイ、ハードディスクの電力消費を抑えるための方法。 特定のハードウェアに依存して書かれているので、そのまま適用はできないが、参考にはなる。

Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus

\bibitem{yamamoto} {Mikio Yamamoto, Kenneth W. Church}, ``Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus'', 2001.すべての部分文字列の単語頻度を一気に計算する、というもの。 まさしくいまや…

Mostly-Unsupervised Statistical Segmentation of Japanese

\bibitem{ando} {Rie Kubota Ando, Lillian Lee}, ``Mostly-Unsupervised Statistical Segmentation of Japanese: Applications to Kanji'',漢字列→単語の分割の手法。 頻度の高いN-gram部分を分けないようにし、頻度が落ちるところで分ける。 漢字しか対象…

HOWTO PowerNow!

http://gentoo-wiki.com/howto_powernow! AMD Athlon XP でサポートされているらしいCPUの電力消費を抑える機能。 ↓こんな感じでカーネルオプションを設定。 [*] Power Management support CPU Frequency scaling ---> [*] CPU Frequency scaling < > /proc/…

HOWTO Auto mount filesystems (AUTOFS)

http://gentoo-wiki.com/howto_auto_mount_filesystems_(autofs) Gentoo の場合、USEフラグ amd も一応有効にする。(あまり使われていないみたいだけど) autofs は、「アクセスされたときにマウントする」ので、一見動いてないように見える。 しかし、アク…

projects/segment/ex-seg.pl

頻度計算の案: 辞書を単語長別に区分し、それぞれ辞書式順序でソート 接尾辞配列には「共通範囲」の付加情報を付ける n 文字の単語の先頭から順に、接尾辞配列の接尾辞の先頭 n 文字を見て それが単語と一致していたら、共通範囲がn以上である限り、カウン…

頻度計算

よく考えたら、頻度は辞書更新に対して、インクリメンタルに計算できるような。 最初は普通に数える。(接尾辞配列の先頭1文字だけを見れば良い) 単語 A と単語 B と、新規単語 AB が与えられたとする。 新規単語 AB の頻度 = f[AB]を計算。(接尾辞配列上…

新単語発見

「頻度の高い単語から分岐させて、新単語を作る」: もっとも頻度の高い単語を選ぶ それに続く単語の中でもっとも頻度の高い単語を選ぶ 両者をつなげたものを新単語とする 「頻度の高いbigramを新単語とする」…すべてのbigramの頻度を計算: n文字 bigram の…

projects/segment/ex-seg.pl (produce_new_words($$))

「頻度の高い単語から分岐」を、とりあえず採用。 辞書のエントリに、頻度と接尾辞配列へのリンクをつけた。

インクリメンタルな頻度計算に問題

包含されたときに頻度を減らす、としていたが、 既に別の単語に包含されていたものを改めて包含するときに、重複して減らすことになる。 例: b が bc に包含されている状態で、ab が生成されたとする。 abの頻度分だけ、b の頻度を減らすと、 abc というシ…

頻度計算のもうひとつの問題

aaaa のようなシークェンスを含む文字列で、単語 aa の頻度を接尾辞配列上で調べるとする。 接尾辞配列をつかって調べると、その箇所で 3 回と数えてしまう。 しかし、単語分割における頻度としては、せいぜい2回(まんなかの2つしかとれなければ、1回)であ…

projects/segment/ex-seg.pl (get_freq($$$$))

頻度計算に接尾辞配列をどう使っていいかが分からない。 接尾辞配列を使うと、多数の単語の頻度を高速に計算できる気がするんだけど…案: 辞書を辞書式順序でソート 辞書の先頭と接尾辞配列の先頭から順に、一致をみる 辞書に構造を持たせる: a => { '' => …

chalow

http://nais.to/~yto/tools/chalow/ Y's memo経由で知り、始めてみた。 emacs で編集モードが標準組み込まれている。 HTML に変換するときカテゴリ分けが階層型でなく多重型。

単語分割第一弾

接尾時配列を使った単語分割プログラムを作りはじめた。 アルゴリズムは以下の通り。 分割は辞書に登録されている単語との最長一致で行う 辞書は初期状態で、各文字が登録されている 頻繁に現れる”2単語の連なり”を辞書に登録する、という作業を繰り返す 分…

cperl-mode

emacs の新しい方の Perl 編集モード。 古い方の perl-mode と比べ、Perl 5.x の文法に対応している感じ。