2005-12-17から1日間の記事一覧

岡野原大輔 『汎用的データにおける確率的言語モデルの抽出とその応用』

非自然言語データの上で確率的言語モデルを構築し、圧縮する。 単語分割(WX法)とクラス推定を、教師なし学習により行う。まず、単語の最大長 n を与えた上で、 suffix array の一致数(辞書順ソートでの隣接接尾辞の最長共通接頭辞の長さ)の切り替わりを…

特別実験報告会での質問と意見

梅村先生: Viterbi アルゴリズムを使った岡野原さんの手法の情報をいただいた。宇野先生: 過学習はなぜ、どんなとき起こるのか。 → 極端な例として、全体が1単語夏井先生: オープンとクローズドで、なぜこれほど性能が違うのか。 → データ不足と考えている