探究使用基於類神經網路之特徵於文本可讀性分類

曾 厚強(Hou-Chiang Tseng), 陳 柏琳(Berlin Chen), 宋 曜廷(Yao-Ting Sung)

研究成果: 雜誌貢獻文章同行評審

摘要

可讀性通常指的是閱讀題材可以被讀者理解的程度:當閱讀材料愈能夠被讀者所理解時,就愈能夠產生好的學習效果。為了能夠幫助讀者去適配符合自己閱讀能力的文件,研究人員長久以來持續發展各種能夠自動且精準地估測文本可讀性的模型來達到此目標。可讀性分類通常是透過分析文件上的資訊來轉化成一組可讀性特徵,再利用這些可讀性特徵來訓練出可讀性模型,以便能預測未知文件的可讀性。然而,傳統的可讀性模型所使用的特徵都需要根據專家的經驗來進行選取,這卻也限制其實用性。近年來隨著表示學習法技術的蓬勃發展,訓練可讀性模型所需要的特徵可以不再需要仰賴專家,這也使得可讀性模型的發展有了一個嶄新的研究方向。因此,本論文嘗試以卷積神經網路以及快速文本兩種技術分別來自動地擷取文本特徵,以訓練出一個能夠分析跨領域文件的可讀性模型,並可以因應文件內容多元主題的特性。經與現有方法的一系列實驗比較後,其結果確認了本論文所提可讀性模型的效能優勢。
原文???core.languages.zh_TW???
頁(從 - 到)31-45
頁數15
期刊中文計算語言學期刊
22
發行號2
出版狀態已發佈 - 2017

Keywords

  • 可讀性
  • 詞向量
  • 卷積神經網路
  • 表示學習法
  • 快速文本
  • Readability
  • Word Vector
  • Convolutional Neural Network
  • Representation Learning
  • fastText.

引用此