調變頻分解技術於強健語音辨識之研究

張 庭豪(Ting-Hao Chang), 洪 孝宗, 陳 冠宇, 王 新民, 陳 柏琳(Berlin Chen)

Research output: Contribution to journalArticlepeer-review

Abstract

自動語音辨識(Automatic Speech Recognition, ASR)系統常因環境變異而導致效能嚴重地受影響;所以長久以來語音強健(Robustness)技術的發展是一個極為重要且熱門的研究領域。本論文旨在探究語音強健性技術,希望能透過有效的語音特徵調變頻譜處理來求取較具強健性的語音特徵。為此,我們使用非負矩陣分解(Nonnegative Matrix Factorization, NMF)以及一些改進方法來正規化調變頻譜強度成分,藉以獲得較具強健性的語音特徵。本論文有下列幾項貢獻。首先,結合稀疏性的概念,期望能夠求取到具調變頻譜局部性的資訊以及重疊較少的NMF基底向量表示。其次,基於局部不變性的概念,希望發音內容相似的語句之調變頻譜強度成分,在NMF空間有越相近的向量表示以維持語句間的關聯程度。再者,在測試階段經由正規化NMF之編碼向量,更進一步提升語音特徵之強健性。最後,我們也結合上述三種NMF的改進方法。本論文的所有實驗皆於國際通用的標竿語料──Aurora-2連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜特徵之基礎實驗,我們所提出的改進方法皆能顯著地降低語音辨識錯誤率。此外,我們也嘗試將所提出的改進方法與一些知名的特徵強健技術做比較和結合,以驗證這些改進方法之實用性。
Original languageChinese (Traditional)
Pages (from-to)87-105
Number of pages19
Journal中文計算語言學期刊
Volume20
Issue number2
Publication statusPublished - 2015

Cite this