Abstract
本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。
Original language | Chinese (Traditional) |
---|---|
Pages (from-to) | 325-344 |
Number of pages | 20 |
Journal | Journal of Educational Media and Library Science |
Volume | 40 |
Issue number | 3 |
Publication status | Published - 2003 |