無限級数頻度による文脈拡張にもとづく言語モデル
鈴木潤さん@NLP2007 のネタから。
N-gram言語モデルは長距離の依存関係を表現することができない。
文の識別モデルも、文をこえる依存関係の表現はできない。
云々
ある単語のベクトル表現を、
その前に出現する単語のベクトル表現*αの和とする。
和は種類ではなく出現ベースでとる。
このベクトル表現は再帰的な定義である。
ペナルティα付きの頻度情報として、
かなり長い文脈の、半分bag-of-words、半分N-gramな情報がはいる。
鈴木さんの方法のいいかたでいうなら、
すべての 2-gram を定義文、その後半を見出語として、
見出語のベクトル表現をつくるということ。
鈴木さんのときとくらべて語彙の統制がないぶん、
無限級数頻度じたいに、効率的な計算が必要かも。
ひとつの方向は、そのベクトル表現を使って文書のベクトル表現をつくり、
文書モデルに使うこと。
もうひとつの方向は、そのベクトル表現をふつうの単語の代わりにして、
ベクトル単位N-gram言語モデルをつくること。
ベクトルの長さ(数万)かけるNの次元数という、
おそろしいスパースさになるので、なんとかしないといけない。
N-gram の数万倍スパースって無理っぽいよ。
逆に、単純にスムージングなしでやると、
単語そのものの異なり数とベクトルの異なり数が同じ(もしくはベクトルの方が少ない?)ので、
ベクトル作ってる意味が全然ない。