Julius によるオフライン音声認識 for Windows
目的:wav2txt
動かすだけなら、すごく簡単です。
まともに使えるようにするのは、かなり大変です。
Julius ディクテーションキットをダウンロードする。
fast.jconf の
- input
- sscalc
などを適切に編集する。
run_fast.bat
として動かす。
Julius は基本的にはデコーダ。
雑音通信路モデルでいうと、
・通信路モデルに相当する triphone HMM の定義
・情報源に相当する 3-gram 言語モデル
さらに、
・言語モデルの単語に対する読みの辞書
を必要とする。
HMM は対象音声の特性にあったもの、
言語モデルは対象分野にあったものが望ましい。
特に背景雑音が音響モデルの想定外な音声や、
標本化周波数が音響モデルの想定外な音声は、
ほとんど認識できない。
背景雑音はともかく、
標本化周波数は、人間が聞いた場合はあまり違いがないように聞こえるので、
注意が必要。
本来、背景雑音や標本化周波数は、
よりクリアな方が認識しやすい、という程度の意味しかないが、
それは音響モデルがその条件に合わせて訓練されている、
という前提が成り立っての話。
音響モデルをつくるには、