中文OCR 文件檢索測試集之製作與應用

蔡 孟竹(Mung-Chu Tsai), 曾 元顯(Yuen-Hsien Tseng)

Research output: Contribution to journalArticle

Abstract

本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。
Original languageChinese
Pages (from-to)325-344
Number of pages20
JournalJournal of Educational Media and Library Science
Volume40
Issue number3
Publication statusPublished - 2003

Cite this