使用字典學習法於強健性語音辨識

顏 必成(Bi-Cheng Yan), 石 敬弘(Chin-Hong Shih), 劉 士弘(Shih-Hung Liu), 陳 柏琳(Berlin Chen)

Research output: Contribution to journalArticle

Abstract

在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。
Original languageChinese
Pages (from-to)35-53
Number of pages19
Journal中文計算語言學期刊
Volume21
Issue number2
Publication statusPublished - 2016

Cite this

顏必成(Bi-Cheng Y, 石敬弘(Chin-Hong S, 劉士弘(Shih-Hung L, & 陳柏琳(Berlin C (2016). 使用字典學習法於強健性語音辨識. 中文計算語言學期刊, 21(2), 35-53.

使用字典學習法於強健性語音辨識. / 顏必成(Bi-Cheng Yan); 石敬弘(Chin-Hong Shih); 劉士弘(Shih-Hung Liu); 陳柏琳(Berlin Chen).

In: 中文計算語言學期刊, Vol. 21, No. 2, 2016, p. 35-53.

Research output: Contribution to journalArticle

顏必成(Bi-ChengY, 石敬弘(Chin-HongS, 劉士弘(Shih-HungL & 陳柏琳(BerlinC 2016, '使用字典學習法於強健性語音辨識', 中文計算語言學期刊, vol. 21, no. 2, pp. 35-53.
顏必成(Bi-ChengY, 石敬弘(Chin-HongS, 劉士弘(Shih-HungL, 陳柏琳(BerlinC. 使用字典學習法於強健性語音辨識. 中文計算語言學期刊. 2016;21(2):35-53.
顏必成(Bi-Cheng Yan) ; 石敬弘(Chin-Hong Shih) ; 劉士弘(Shih-Hung Liu) ; 陳柏琳(Berlin Chen). / 使用字典學習法於強健性語音辨識. In: 中文計算語言學期刊. 2016 ; Vol. 21, No. 2. pp. 35-53.
@article{93c921acff0646239c4b96550eb42d4a,
title = "使用字典學習法於強健性語音辨識",
abstract = "在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。",
keywords = "強健性, 自動語音辨識, 調變頻譜, 稀疏編碼, 字典學習法, Robustness, Automatic Speech Recognition, Modulation Spectrum, Sparse Coding, Dictionary Learning",
author = "顏, {必成(Bi-Cheng Yan)} and 石, {敬弘(Chin-Hong Shih)} and 劉, {士弘(Shih-Hung Liu)} and 陳, {柏琳(Berlin Chen)}",
year = "2016",
language = "Chinese",
volume = "21",
pages = "35--53",
journal = "中文計算語言學期刊",
issn = "1027-376x",
publisher = "中華民國計算語言學學會",
number = "2",

}

TY - JOUR

T1 - 使用字典學習法於強健性語音辨識

AU - 顏, 必成(Bi-Cheng Yan)

AU - 石, 敬弘(Chin-Hong Shih)

AU - 劉, 士弘(Shih-Hung Liu)

AU - 陳, 柏琳(Berlin Chen)

PY - 2016

Y1 - 2016

N2 - 在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。

AB - 在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。

KW - 強健性

KW - 自動語音辨識

KW - 調變頻譜

KW - 稀疏編碼

KW - 字典學習法

KW - Robustness

KW - Automatic Speech Recognition

KW - Modulation Spectrum

KW - Sparse Coding

KW - Dictionary Learning

M3 - 文章

VL - 21

SP - 35

EP - 53

JO - 中文計算語言學期刊

JF - 中文計算語言學期刊

SN - 1027-376x

IS - 2

ER -