2005-11-18から1日間の記事一覧

新聞記事コーパスの特徴

新聞記事を集めたコーパスには「長く重複する部分文字列」が現れることがある。 同じ日に別の紙面で同じことがらを取り上げるとき、文章のコピー、引用が行われているようだ。「尼崎公害訴訟」で毎日新聞1月31日を検索した例。 前後がまったく同じものがいく…

記憶のある符号化

1-gram 確率にもとづく文字あたり(=全体での)エントロピー最小化の分割は、 2-gram, 3-gram での単語あたりエントロピーの低減には役に立たなさそう。 [2005-11-16-1]の 1-gram で最適なら、2-gram でもある程度よくなるのでは? という考えが間違ってい…

表の中身に脚注をつける

じかに \footnote と付けても表示されない。 \begin{tabular}{|c|c|c|} 1.234 \footnotemark& 1234 & 111 \\ \end{tabular} \footnotetext{概算値}