語音辨識使用統計圖等化方法

謝 欣汝(Hsin-Ju Hsieh), 洪 志偉(Jeih-Weih Hung), 陳 柏琳(Ber-Lin Chen)

Research output: Contribution to journalArticle

Abstract

統計圖等化法(Histogram Equalization, HEQ)是一種概念簡單且有效的語音特徵處理技術,近年來被廣泛地研究與應用於強健性語音辨識的領域。在本論文中,我們延續統計圖等化法的研究,提出一系列使用語音特徵的空間-時間之文脈統計資訊(Spatial-Temporal Contextual Statistics)的語音特徵強健方法;其作法是在語音之倒頻譜特徵上,利用一個簡易的差分(Differencing)和平均(Averaging)的處理方式,來得到語音特徵之文脈統計資訊後予以正規化並結合。這些新方法的作法有別於傳統之個別維度獨立正規化(Dimension-Wise)的統計圖等化法,進一步地正規化不同空間與時間之間的特徵分布資訊,因此可以降低不同聲學環境所產生的偏差,並且嘗試消除傳統之統計圖等化法無法補償的問題,亦即隨機性雜訊(Random Noise)對語音所產生的影響。本論文所有的語音辨識實驗皆是作用於國際通用的連續語音語料庫Aurora-2上;實驗結果顯示,我們所提出之方法相較於許多著名的特徵強化法,皆有不錯的效果。
Original languageChinese
Pages (from-to)69-84
Number of pages16
Journal中文計算語言學期刊
Volume17
Issue number4
DOIs
Publication statusPublished - 2012

Cite this