「物理モデルによる音声合成」と比べてみた言語のモデルの現状

「音声にはモデルがあるけれど言語にはない」
という言葉がずっと気になっていた。
最近になって、少し意味が分かってきたような気がする。

ここで音声にあるモデルというのは、
基本的に「発声に関わる神経と筋肉のモデル」である。
もちろん発声という行動には言語を含む高次の機能が関わっている。
しかし、音声の(一部の)研究者はまずは低次から、というアプローチをしている。

ある音声研究者から
「物理モデルに基づく音声合成で、歌声が出せるようになってきた」
「けれど、急激なF0の変化を含む遷移はまだできない」
というような話を聞いた。
F0というのは”もっとも主要な周波数成分”のようなもので、音の高さをほぼ決めている。
F0の自由な遷移ができないと複数の音高を含む歌を歌えない訳で、
かなり初期段階にあるといわざるをえない。

一方、
言語のモデルで○○まではできる、○○はまだできない、
というような評価をしようとすると、それすらできないことに気づく。

たとえば品詞タギングと統語解析は9割くらいできるようになっている、
ということになっている。
なぜ留保がつくかというと、
品詞や統語構造が正しいかどうかの評価自体が人間の主観評価なので、
評価をどう評価するか、みたいな問題が常についてまわり、
決定的にここまでできている、ということがいえない。
特に、人間による裁定の一致率が低い問題は、
間違った問題設定をしている、つまり単体では解けない問題を解こうとしているのである。
程度の差はあれど、ほとんどの言語の研究は、よくみると間違った問題設定をしている。
(単体で解けない場合でも、近似解を出してその精度を高めることはできるし、されている)

言語の場合、客観的に観測可能な事象は、音声やテキストしかない。
これらはかなり高次の出力結果であり、
内部で何が起こっているのかを示す情報に欠けている(と感じる)。
容易に(もちろん、非侵襲的に)得ることができる分、解像度が粗い。
そのため言語の研究者はいろいろなレベルで割り切って、
それより低次のレベルのことを保留している。

音声の場合は、
筋肉の動き、神経活動の微視的イメージングを(精度の課題はあれど)行うことができるので、
細かいけれども確実な評価を積み重ねていくことができる。
さらに、それに基づいてできたモデルが、たとえば、
初期段階にあるとはいえ一応歌声を生成できているのだからすごい。

言語側では、
データドリブンな手法と(生成文法的な)直観に根ざした理論ベースの手法とがよく対比されるが、
物理モデル的な意味での低次モデルと、いわゆるNLP的な高次モデルのからみは、
あまり無いような気がする。