特別実験報告会予稿(言語モデル最適化バージョン2)

表題:言語モデル性能指標を基準にした文分割 / Sentence Segmention based on Language Model Performance
概要:

自然言語処理において、統計的言語モデル音声認識機械翻訳など幅広い応用に用いられている基礎的手法のひとつである。統計的言語モデルは、文すなわち単語列において、ある単語の出現確率をその単語の前に現れる単語を条件とする条件つき確率として与える。

一般に言語モデルの構築にあたっては、文を分割する単位である「単語」は、言語学的単位としての単語を基準とすることが多い。たとえば、辞書に基づく分割方法ではその言語の専門家によって整備された辞書が用いられ、教師あり学習に基づく分割方法では母語話者の分割を教師として学習が行われることが多い。しかし、言語モデル構築のための分割の単位が言語学的な単語である必要性はなく、実際に、対象領域やスタイルに適応して分割を修正することによる、言語モデルの性能の向上が報告されている。本研究では、言語知識を用いず言語モデル性能指標のみを基準として分割を与える手法を提案し、言語モデル性能を向上させることを目指す。

言語モデル性能の指標として、その言語モデルが文脈に対して予測する文の場合の数の期待値である、パープレキシティがある。パープレキシティの対数は、言語モデルを単語列を出力する情報源とみたときのエントロピーであり、情報源符号化における理想的符号長である。

本研究では、パープレキシティ最小な分割を近似する、言語知識を用いない分割法を提案する。この方法では、まず、学習データを可能な最小の単位である文字に分割する。そうしてできたセグメント(区切られたひとまとまりの文字列)列を、辞書の構築とともに組織化していく。組織化は、連続して出現する2セグメントを連結することを1ステップとしている。連結候補の選択の基準として最小記述長原理を採用し、記述長を与える符号化としては、単純マルコフ性近似と辞書の構築に基づく符号化を採用する。

提案手法による言語モデル性能に改善の可能性を調べるため、比較的少量の講演音声の書き起こしデータを対象として、提案手法による言語モデルと既存の分割手法による言語モデルの性能を文字当たりパープレキシティによって比較したところ、既存の形態素解析システム茶筌による分割に対して構築された言語モデルは 26.410、提案されている分割法による言語モデルは 24.032 であり、提案手法は茶筌による分割に匹敵する性能を示した。また、学習に用いるデータの量を変化させて同様の実験を行い、提案手法は既存手法と比べて、データの増加に対してより大きな性能の向上が見られることを確認した。
計算時間の低減、現実的なスケールのデータに対する性能評価、音声認識などの応用での性能評価、2重マルコフ近似への拡張、探索範囲のN-bestへの拡大が今後の課題である。

Statistical language model is a fundamental method in a number of applications of natural language prosessing, such as speech recognition and statistical machine translation.
In construction of a language model, word as a linguistic unit is commonly used to segment a sentence. However, it is reported that higher performance of language models can be realized with segmentation methods adapted to the target domain or style.
Performance of a statistical language model can be measured with Perplexity, the mean number of probable choices in a context given by the model. Vieweing a language model as an information source, logarithm of Perplexity essentialy equivalent to entropy of the source.
In this research, we propose a segmentation method approximately minimizing the Perplexity based on the Minimum Description Length, which encodes the learning data with a coding based on a dictionary constructed in the process and approximation of 1st order markov property.
A language model constructed with the proposed method achieved comparable performance to a language model based on an existing dictionary-based segmentation method.
Future work should be carried out to reduce the computational time, to evaluate the perfomance in more realistic sclae data, to extend the model to 2nd order markov property and to enhance the search range to N-best.