Julius によるオフライン音声認識 for Windows

目的：wav2txt
動かすだけなら、すごく簡単です。
まともに使えるようにするのは、かなり大変です。

Julius ディクテーションキットをダウンロードする。

fast.jconf の

input
sscalc

などを適切に編集する。

run_fast.bat
として動かす。

Julius は基本的にはデコーダ。
雑音通信路モデルでいうと、
・通信路モデルに相当する triphone HMM の定義
・情報源に相当する 3-gram 言語モデル
さらに、
・言語モデルの単語に対する読みの辞書
を必要とする。

HMM は対象音声の特性にあったもの、
言語モデルは対象分野にあったものが望ましい。
特に背景雑音が音響モデルの想定外な音声や、
標本化周波数が音響モデルの想定外な音声は、
ほとんど認識できない。
背景雑音はともかく、
標本化周波数は、人間が聞いた場合はあまり違いがないように聞こえるので、
注意が必要。

本来、背景雑音や標本化周波数は、
よりクリアな方が認識しやすい、という程度の意味しかないが、
それは音響モデルがその条件に合わせて訓練されている、
という前提が成り立っての話。

音響モデルをつくるには、