Abstract
大量多媒體內容的與日俱增促使自動語音文件摘要成為一項重要的研究議題。其中最為廣泛地被探究的是節錄式語音文件摘要(Extractive Spoken Document Summarization),其目的是根據事先定義的摘要比例,從語音文件中選取一些重要的語句,用以代表原始語音文件的主旨或主題。另一方面,表示法學習(Representation Learning)是近期相當熱門的一個研究議題,多數的研究成果也證明了這項技術在許多自然語言處理(Natural Language Processing, NLP)的相關任務上,可以進一步地獲得優良的成效。有鑑於此,本論文主要探討使用詞表示法(Word Representations)及語句表示法(Sentence Representations)於節錄式中文廣播新聞語音文件摘要之應用。基於詞表示法及語句表示法,本論文提出三種新穎且有效的排序模型(Ranking Models)。除了文件中的文字資訊外,本論文更進一步地結合語音文件上的各式聲學特徵,如韻律特徵(Prosodic Features)等,期望可以獲得更好的摘要成效。本論文的語音文件摘要實驗語料是採用公視廣播新聞;實驗結果顯示,相較於其它現有的摘要方法,我們所發展的新穎式摘要方法能夠提供顯著的效能改善。
Original language | Chinese (Traditional) |
---|---|
Pages (from-to) | 65-85 |
Number of pages | 21 |
Journal | 中文計算語言學期刊 |
Volume | 20 |
Issue number | 2 |
Publication status | Published - 2015 |