使用字典學習法於強健性語音辨識

顏 必成(Bi-Cheng Yan), 石 敬弘(Chin-Hong Shih), 劉 士弘(Shih-Hung Liu), 陳 柏琳(Berlin Chen)

研究成果: 雜誌貢獻期刊論文同行評審

摘要

在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。
原文繁體中文
頁(從 - 到)35-53
頁數19
期刊中文計算語言學期刊
21
發行號2
出版狀態已發佈 - 2016

Keywords

  • 強健性
  • 自動語音辨識
  • 調變頻譜
  • 稀疏編碼
  • 字典學習法
  • Robustness
  • Automatic Speech Recognition
  • Modulation Spectrum
  • Sparse Coding
  • Dictionary Learning

引用此