sr
『日本語話し言葉コーパス』の概観 http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。 講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるよ…
rawfile での入力音声はwav形式なので、 持っているファイルが raw だったら変換しておく。 http://julius.sourceforge.jp/forum/viewtopic.php?f=14&t=7 ヘッダ無し(RAW)の音声ファイル入力は、16bit (signed short) の、BIG ENDIAN 形式である必要があり…
http://www.wakayama-u.ac.jp/~kawahara/straighttrial/ STRAIGHT は音声分析・合成ツール。 人間の音声を可読性の高い成分に分解し、再構成することができる。STRAIGHT linksにあるように、ここ数年国内外の多くの音声研究者が利用している。
「音声にはモデルがあるけれど言語にはない」 という言葉がずっと気になっていた。 最近になって、少し意味が分かってきたような気がする。ここで音声にあるモデルというのは、 基本的に「発声に関わる神経と筋肉のモデル」である。 もちろん発声という行動…
ICASSP 2007, Honolulu, Hawai'i, U.S.A. ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。 音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。 より言語の話題が多く出るのは、Interspe…
http://hil.t.u-tokyo.ac.jp/~lab/topics/sagayama04sapa10/index.html
http://en.wikipedia.org/wiki/international_phonetic_alphabet これだけで、音声学のよい復習になります。情報処理推進機構ではないのに注意。追記 音声学を勉強したような顔をしてますが、本を読んだだけです。 言語学の中で音声学だけはトレーニングを受…
http://citeseer.ist.psu.edu/ostendorf95from.html HMMの拡張である Hidden semi-Markov Models または Segmental HMM。 遷移のときにシンボル列を出力する。
人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic …
IPSJ-SIG 2007-SLP-65 より。PodCastleがすばらしいのは、 研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。 音声認識システムはユーザーに音声ファイルの全文検索を提供する。 ユーザーは音声認識システムに訂正情報を提供す…
AIチャレンジ研究会24回の資料の峯松先生の論文。「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、 N個の点集合が作る形とNxNの距離行列の等価性。 参考:距離 - 朱鷺の杜Wiki注目している集合が閉じてい…
http://podcastle.jp/ 緒方さんの音声訂正が Wiki になった!(惹句)
目的:wav2txt 動かすだけなら、すごく簡単です。 まともに使えるようにするのは、かなり大変です。Julius ディクテーションキットをダウンロードする。fast.jconf の input sscalc などを適切に編集する。run_fast.bat として動かす。Julius は基本的にはデ…
http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例