中文文本可讀性探討:指標選取、模型建立與效度驗證

宋 曜廷(Yao-Ting Sung), 陳 茹玲, 李 宜憲(Yi-Shian Lee), 查 日龢(Jih-Ho Cha), 曾 厚強, 林 維駿(Wei-Chun Lin), 張 道行(Tao-Hsing Chang), 張 國恩(Kuo-En Chang)

研究成果: 雜誌貢獻期刊論文同行評審

摘要

本研究根據中文特性發展可讀性指標,接著建立中文文本可讀性數學模型,並進行模型效度驗證。本研究以所發展24個可讀性指標為預測變項,386篇教科書文章之年級值為效標變項,建立逐步迴歸(stepwise regression)與SVM可讀性數學模型,再以96篇新文章為測試資料進行模型驗證。研究結果顯示:在逐步迴歸模型中,難詞數、單句數比率、實詞頻對數平均與人稱代名詞數為重要的預測變項;以SVM模型F-score方法所得的重要預測變項則為難詞數、二字詞數、字數與中筆畫字元數等。逐步迴歸模型與SVM模型對新文章的預測正確性分別為55.21%及72.92%,兩種模型預測低年級文章之正確性均高於高年級文章。
原文繁體中文
頁(從 - 到)75-106
頁數32
期刊中華心理學刊
55
發行號1
DOIs
出版狀態已發佈 - 2013

Keywords

  • 可讀性
  • 正確性
  • 逐步迴歸
  • SVM數學模型
  • accuracy
  • readability
  • stepwise regression
  • support vector machine

引用此