當代非監督式方法之比較於節錄式語音摘要

劉 士弘, 陳 冠宇, 施 凱文, 陳 柏琳(Berlin Chen), 王 新民, 許 聞廉(Wen-Lian Hsu)

Research output: Contribution to journalArticle

Abstract

由於網際網路的飛速發展,促成大資料時代的來臨,也因此自動摘要(Automatic Summarization)成為近年來一項熱門的研究議題。節錄式(Extractive)自動摘要是依據事先定義的摘要比例,從文字文件(Text Documents)或語音文件(Spoken Documents)中選取一些能夠代表原始文件主旨或主題的重要語句當作摘要。節錄式摘要可被視為一個資訊檢索(Information Retrieval, IR)的問題,在相關研究中,使用語言模型(Language Modeling)來挑選重要語句之方法,已初步地被驗證在文字與語音文件的自動摘要任務上有不錯的成果。本論文延續此項研究,進一步地提出三個主要的研究貢獻。首先,有鑑於關聯性(Relevance)資訊的概念在資訊檢索領域中已有不錯的發展成果,本論文嘗試結合關聯性資訊來重新估測並建立語句的語言模型,並嘗試使用三混合(Tri-Mixture Model, TriMM)模型,期待得以更精準地描述語句的語意內容,進而提升自動摘要之效能。第二,除了語言模型之外,本論文進一步地嘗試探究機率式檢索模型於語音文件摘要任務上之成效。最後,本論文亦探討不同的語言模型平滑化技術對於語音文件摘要任務之影響。本論文的語音文件摘要實驗語料是採用公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有的非監督式摘要方法,我們所應用的新穎式摘要方法能提供明顯的效能改善。
Original languageChinese
Pages (from-to)1-26
Number of pages26
Journal中文計算語言學期刊
Volume22
Issue number1
Publication statusPublished - 2017

Cite this

劉士弘, 陳冠宇, 施凱文, 陳柏琳(Berlin C, 王新民, & 許聞廉(Wen-Lian H (2017). 當代非監督式方法之比較於節錄式語音摘要. 中文計算語言學期刊, 22(1), 1-26.

當代非監督式方法之比較於節錄式語音摘要. / 劉士弘; 陳冠宇; 施凱文; 陳柏琳(Berlin Chen); 王新民; 許聞廉(Wen-Lian Hsu).

In: 中文計算語言學期刊, Vol. 22, No. 1, 2017, p. 1-26.

Research output: Contribution to journalArticle

劉士弘, 陳冠宇, 施凱文, 陳柏琳(BerlinC, 王新民 & 許聞廉(Wen-LianH 2017, '當代非監督式方法之比較於節錄式語音摘要', 中文計算語言學期刊, vol. 22, no. 1, pp. 1-26.
劉士弘, 陳冠宇, 施凱文, 陳柏琳(BerlinC, 王新民, 許聞廉(Wen-LianH. 當代非監督式方法之比較於節錄式語音摘要. 中文計算語言學期刊. 2017;22(1):1-26.
劉士弘 ; 陳冠宇 ; 施凱文 ; 陳柏琳(Berlin Chen) ; 王新民 ; 許聞廉(Wen-Lian Hsu). / 當代非監督式方法之比較於節錄式語音摘要. In: 中文計算語言學期刊. 2017 ; Vol. 22, No. 1. pp. 1-26.
@article{ec9c48469b214d3581225a94b2ad3bfb,
title = "當代非監督式方法之比較於節錄式語音摘要",
abstract = "由於網際網路的飛速發展,促成大資料時代的來臨,也因此自動摘要(Automatic Summarization)成為近年來一項熱門的研究議題。節錄式(Extractive)自動摘要是依據事先定義的摘要比例,從文字文件(Text Documents)或語音文件(Spoken Documents)中選取一些能夠代表原始文件主旨或主題的重要語句當作摘要。節錄式摘要可被視為一個資訊檢索(Information Retrieval, IR)的問題,在相關研究中,使用語言模型(Language Modeling)來挑選重要語句之方法,已初步地被驗證在文字與語音文件的自動摘要任務上有不錯的成果。本論文延續此項研究,進一步地提出三個主要的研究貢獻。首先,有鑑於關聯性(Relevance)資訊的概念在資訊檢索領域中已有不錯的發展成果,本論文嘗試結合關聯性資訊來重新估測並建立語句的語言模型,並嘗試使用三混合(Tri-Mixture Model, TriMM)模型,期待得以更精準地描述語句的語意內容,進而提升自動摘要之效能。第二,除了語言模型之外,本論文進一步地嘗試探究機率式檢索模型於語音文件摘要任務上之成效。最後,本論文亦探討不同的語言模型平滑化技術對於語音文件摘要任務之影響。本論文的語音文件摘要實驗語料是採用公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有的非監督式摘要方法,我們所應用的新穎式摘要方法能提供明顯的效能改善。",
keywords = "最佳匹配, 語言模型, 虛擬關聯回饋, 關聯模型, 節錄式自動摘要, BM25, Language Modeling, Pseudo-Relevance Feedback, Relevance Modeling, Extractive Automatic Summarization",
author = "士弘 劉 and 冠宇 陳 and 凱文 施 and 陳, {柏琳(Berlin Chen)} and 新民 王 and 許, {聞廉(Wen-Lian Hsu)}",
year = "2017",
language = "Chinese",
volume = "22",
pages = "1--26",
journal = "中文計算語言學期刊",
issn = "1027-376x",
publisher = "中華民國計算語言學學會",
number = "1",

}

TY - JOUR

T1 - 當代非監督式方法之比較於節錄式語音摘要

AU - 劉, 士弘

AU - 陳, 冠宇

AU - 施, 凱文

AU - 陳, 柏琳(Berlin Chen)

AU - 王, 新民

AU - 許, 聞廉(Wen-Lian Hsu)

PY - 2017

Y1 - 2017

N2 - 由於網際網路的飛速發展,促成大資料時代的來臨,也因此自動摘要(Automatic Summarization)成為近年來一項熱門的研究議題。節錄式(Extractive)自動摘要是依據事先定義的摘要比例,從文字文件(Text Documents)或語音文件(Spoken Documents)中選取一些能夠代表原始文件主旨或主題的重要語句當作摘要。節錄式摘要可被視為一個資訊檢索(Information Retrieval, IR)的問題,在相關研究中,使用語言模型(Language Modeling)來挑選重要語句之方法,已初步地被驗證在文字與語音文件的自動摘要任務上有不錯的成果。本論文延續此項研究,進一步地提出三個主要的研究貢獻。首先,有鑑於關聯性(Relevance)資訊的概念在資訊檢索領域中已有不錯的發展成果,本論文嘗試結合關聯性資訊來重新估測並建立語句的語言模型,並嘗試使用三混合(Tri-Mixture Model, TriMM)模型,期待得以更精準地描述語句的語意內容,進而提升自動摘要之效能。第二,除了語言模型之外,本論文進一步地嘗試探究機率式檢索模型於語音文件摘要任務上之成效。最後,本論文亦探討不同的語言模型平滑化技術對於語音文件摘要任務之影響。本論文的語音文件摘要實驗語料是採用公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有的非監督式摘要方法,我們所應用的新穎式摘要方法能提供明顯的效能改善。

AB - 由於網際網路的飛速發展,促成大資料時代的來臨,也因此自動摘要(Automatic Summarization)成為近年來一項熱門的研究議題。節錄式(Extractive)自動摘要是依據事先定義的摘要比例,從文字文件(Text Documents)或語音文件(Spoken Documents)中選取一些能夠代表原始文件主旨或主題的重要語句當作摘要。節錄式摘要可被視為一個資訊檢索(Information Retrieval, IR)的問題,在相關研究中,使用語言模型(Language Modeling)來挑選重要語句之方法,已初步地被驗證在文字與語音文件的自動摘要任務上有不錯的成果。本論文延續此項研究,進一步地提出三個主要的研究貢獻。首先,有鑑於關聯性(Relevance)資訊的概念在資訊檢索領域中已有不錯的發展成果,本論文嘗試結合關聯性資訊來重新估測並建立語句的語言模型,並嘗試使用三混合(Tri-Mixture Model, TriMM)模型,期待得以更精準地描述語句的語意內容,進而提升自動摘要之效能。第二,除了語言模型之外,本論文進一步地嘗試探究機率式檢索模型於語音文件摘要任務上之成效。最後,本論文亦探討不同的語言模型平滑化技術對於語音文件摘要任務之影響。本論文的語音文件摘要實驗語料是採用公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有的非監督式摘要方法,我們所應用的新穎式摘要方法能提供明顯的效能改善。

KW - 最佳匹配

KW - 語言模型

KW - 虛擬關聯回饋

KW - 關聯模型

KW - 節錄式自動摘要

KW - BM25

KW - Language Modeling

KW - Pseudo-Relevance Feedback

KW - Relevance Modeling

KW - Extractive Automatic Summarization

M3 - 文章

VL - 22

SP - 1

EP - 26

JO - 中文計算語言學期刊

JF - 中文計算語言學期刊

SN - 1027-376x

IS - 1

ER -