特別実験報告会予稿(言語モデル最適化バージョン)

表題:言語モデル性能の改善を目指した最小記述長原理にもとづく単語分割
概要:
自然言語処理において、統計的言語モデル音声認識機械翻訳など幅広い応用に用いられている基礎的手法のひとつである。統計的言語モデルは、文を単語列として見たとき、ある単語の出現確率をその単語の前に現れる単語を条件とする条件つき確率として与える。

言語モデルの性能は、クロスエントロピー、すなわち、学習に用いた単語列と独立なある単語列に対して与えられる確率の高さ、もしくはパープレキシティ、すなわち、単語列の場合の数の期待値の低さにより計られる。

一般に言語モデルの構築にあたっては、言語学的単位の単語を基準として、対象データを分割することが多い。辞書ベースの分割方法では、その言語の専門家が用意した辞書を用いる。教師あり機械学習に基づく分割方法でも、専門家によって与えられた分割を目標にして学習が行われることが多い。しかし、言語モデル構築を目的とする場合、単語の単位は言語学的単位にしばられる必然性はなく、対象領域やスタイルに適応した単位の言語モデルによって性能があげられることが報告されている。

本研究では、言語モデル性能の最大化を目的とする、言語知識を用いない単語分割法を提案する。この方法では、まず、学習データを可能な最小の単位である文字に分割する。そうしてできたセグメント列を、辞書の構築とともに組織化していく。組織化は、連続して出現するある2セグメントを連結することを1ステップとしている。連結候補の選択の基準として最小記述長原理を採用し、記述長を与える符号化としては、1重マルコフ性近似と辞書の構築に基づく符号化を採用する。また、各ステップにおいて、前のステップの分割によって得られる候補のうち、基準に対してもっとも好ましい連結を即座に実行するという貪欲な探索手法を採用する。

提案されている単語分割手法による言語モデルは、XXのデータにおける実験において、既存の単語単位言語モデルと superword 言語モデルを上回る性能を示した。

計算時間の低減、現実的なスケールのデータに対する性能評価、2重マルコフ性への拡張、探索範囲のN-bestへの拡大が今後の課題である。

Statistical language models are fundamental methods in a number of applications of natural language prosessing, such as speech recognition and statistical machine translation.
Performance of a statistical language model can be measured with Cross Entropy, the probability given to a sentence that is independent of its learning data, or Perplexity, the mean number of branches of probable sentences.
In construction of N-gram models, word as a linguistic unit is commonly used to segment a sentence. However, it is reported that language models whose segmentation units are adapted to the target domain or style outperformed word-based models.
In this research, as a framework that gives the segmentation that enables to maximize the performance of the language model on it while avoiding overfitting, we propose a method based on the Minimum Description Length that encodes the learning data with a coding on a constructed dictionary and approximation of 1st order markov property.
A language model constructed with the proposed method outperformed existing word-based language models and other adapted language models in an experiment in XX data set.
Future work should be done to decrease computing time, to evaluate perfomance in more realistic sclae data, to extend the model to 2nd order markov property and to enhance the search range to N-best.

「上回る性能」を示すといいな、と。

手法について、もっとくわしく書こう。(一番重要)

パープレキシティとかエントロピーとかの説明がおかしいかも。

1重マルコフ性とかいういい方も、それでいいかよく考えよう。