中文學習者的錯別字與文法錯誤診斷之研究

研究計畫: 政府部門科技部計畫

專案詳細資料

說明

近十年來,全球的中文學習者人數急劇增加。相對於英文的學習環境已有許多輔助學習的系統,中文學習者的輔助工具則相對稀少,尤其是可以自動偵測和更正錯別字與文法錯誤的系統。我們專注於開發運用語言分析和機器學習技術的中文錯誤診斷系統,用於偵測和更正中文學習者的寫作錯誤。當輸入多個中文句子時,這樣的診斷系統可以檢查每一個中文句子中可能的錯別字和文法錯誤類型,進而提供學習者在該語境下正確用法的修正建議。 至今為止,本計畫運用規則法、卷積神經網路連結長短期記憶模型等技術,偵測中文學習者寫作的中文句子是否有語法上的錯誤,但這項研究是很困難的任務,目前達到的成效都還不能令人滿意。 本計畫也建置完成TOCFL學習者語料庫,搜集來自46種不同母語的中文學習者的2837篇作文,提出階層式的錯誤標記集,完成33,835個語法錯誤標記。 本計畫舉辦了第8屆國際自然語言處理研討會,並且於該會議中組織第四屆自然語言處理技術於教育應用工作坊。 本計畫也出版了專書篇章,我們將研究過程中自己建置及使用過的語料、舉辦過的國際性評比競賽與工作坊,以及參與評比團隊使用過的技術與方法,呈現在Springer出版的專書「Computational and Corpus Approaches to Chinese Language Learning」的第12章裡。 最後,本計畫參與國家教育研究院「2018華語文教學應用軟體競賽」,帶領學生林郁綺及吳玟萱同學以「NTNU-NCU中文錯別字偵測改錯系統」榮獲第2名。
狀態已完成
有效的開始/結束日期2017/08/012019/10/31

Keywords

  • 電腦輔助語言學習
  • 中文學習
  • 語法錯誤偵測
  • 學習者語料庫

指紋

探索此專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。