中文OCR 文件檢索測試集之製作與應用

蔡 孟竹(Mung-Chu Tsai), 曾 元顯(Yuen-Hsien Tseng)

研究成果: 雜誌貢獻期刊論文同行評審

摘要

本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。
原文繁體中文
頁(從 - 到)325-344
頁數20
期刊Journal of Educational Media and Library Science
40
發行號3
出版狀態已發佈 - 2003

Keywords

  • 光學文字辨譏
  • 資訊檢索
  • 則試集
  • 成效評估
  • 中文檢索
  • OCR
  • Information retrieval
  • Test collection
  • Effectiveness evaluation
  • Chinese document retrieval

引用此