sr

CSJ からの形態素情報の読み取りをしたいときに参照すべきマニュアル

sr

『日本語話し言葉コーパス』の概観 http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/040/overview.pdf とりあえずここから。特に、p.8 のファイル名の命名の説明が重要。 講演、対話、朗読などのスタイル種別がファイル名先頭1文字で識別されるよ…

Julius による大語彙連続音声認識のメモ

sr

rawfile での入力音声はwav形式なので、 持っているファイルが raw だったら変換しておく。 http://julius.sourceforge.jp/forum/viewtopic.php?f=14&t=7 ヘッダ無し(RAW)の音声ファイル入力は、16bit (signed short) の、BIG ENDIAN 形式である必要があり…

STRAIGHT trial page

http://www.wakayama-u.ac.jp/~kawahara/straighttrial/ STRAIGHT は音声分析・合成ツール。 人間の音声を可読性の高い成分に分解し、再構成することができる。STRAIGHT linksにあるように、ここ数年国内外の多くの音声研究者が利用している。

「物理モデルによる音声合成」と比べてみた言語のモデルの現状

「音声にはモデルがあるけれど言語にはない」 という言葉がずっと気になっていた。 最近になって、少し意味が分かってきたような気がする。ここで音声にあるモデルというのは、 基本的に「発声に関わる神経と筋肉のモデル」である。 もちろん発声という行動…

ICASSP 2007

lm sr

ICASSP 2007, Honolulu, Hawai'i, U.S.A. ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。 音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。 より言語の話題が多く出るのは、Interspe…

Specmurt Anasylis -- A Piano-Roll-Visualization of Polyphonic Music Signals by Deconvolution of Log-Frequency Spectrum

http://hil.t.u-tokyo.ac.jp/~lab/topics/sagayama04sapa10/index.html

IPA の項目がすばらしく充実している件

http://en.wikipedia.org/wiki/international_phonetic_alphabet これだけで、音声学のよい復習になります。情報処理推進機構ではないのに注意。追記 音声学を勉強したような顔をしてますが、本を読んだだけです。 言語学の中で音声学だけはトレーニングを受…

From HMMs to Segment Models -- A Unified View of Stochastic Modeling for Speech Recognition - Ostendorf, Digalakis, Kimball (ICASSP1996)

http://citeseer.ist.psu.edu/ostendorf95from.html HMMの拡張である Hidden semi-Markov Models または Segmental HMM。 遷移のときにシンボル列を出力する。

音声弁別素性は有限か否か

sr

人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic …

PodCastleの実現:Web2.0にもとづく音声認識性能の向上について

sr

IPSJ-SIG 2007-SLP-65 より。PodCastleがすばらしいのは、 研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。 音声認識システムはユーザーに音声ファイルの全文検索を提供する。 ユーザーは音声認識システムに訂正情報を提供す…

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得

AIチャレンジ研究会24回の資料の峯松先生の論文。「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、 N個の点集合が作る形とNxNの距離行列の等価性。 参考:距離 - 朱鷺の杜Wiki注目している集合が閉じてい…

podcastle

http://podcastle.jp/ 緒方さんの音声訂正が Wiki になった!(惹句)

Julius によるオフライン音声認識 for Windows

sr lm

目的:wav2txt 動かすだけなら、すごく簡単です。 まともに使えるようにするのは、かなり大変です。Julius ディクテーションキットをダウンロードする。fast.jconf の input sscalc などを適切に編集する。run_fast.bat として動かす。Julius は基本的にはデ…

Isotani -- Speech Recognition Using a Stochastic Language Model Integrating Local and Global Constraints

http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699 音声認識での統語情報利用例