摘要
本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。
原文 | 繁體中文 |
---|---|
頁(從 - 到) | 325-344 |
頁數 | 20 |
期刊 | Journal of Educational Media and Library Science |
卷 | 40 |
發行號 | 3 |
出版狀態 | 已發佈 - 2003 |
Keywords
- 光學文字辨譏
- 資訊檢索
- 則試集
- 成效評估
- 中文檢索
- OCR
- Information retrieval
- Test collection
- Effectiveness evaluation
- Chinese document retrieval