中文OCR 文件檢索測試集之製作與應用

蔡 孟竹(Mung-Chu Tsai), 曾 元顯(Yuen-Hsien Tseng)

Research output: Contribution to journalArticle

Abstract

本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。
Original languageChinese
Pages (from-to)325-344
Number of pages20
JournalJournal of Educational Media and Library Science
Volume40
Issue number3
Publication statusPublished - 2003

Cite this

中文OCR 文件檢索測試集之製作與應用. / 蔡孟竹(Mung-Chu Tsai); 曾元顯(Yuen-Hsien Tseng).

In: Journal of Educational Media and Library Science, Vol. 40, No. 3, 2003, p. 325-344.

Research output: Contribution to journalArticle

@article{76ea7bf78c814de78fc2ec26713c2813,
title = "中文OCR 文件檢索測試集之製作與應用",
abstract = "本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。",
keywords = "光學文字辨譏, 資訊檢索, 則試集, 成效評估, 中文檢索, OCR, Information retrieval, Test collection, Effectiveness evaluation, Chinese document retrieval",
author = "蔡, {孟竹(Mung-Chu Tsai)} and 曾, {元顯(Yuen-Hsien Tseng)}",
year = "2003",
language = "Chinese",
volume = "40",
pages = "325--344",
journal = "Journal of Educational Media and Library Science",
issn = "1013-090X",
publisher = "淡江大學資訊與圖書館學系",
number = "3",

}

TY - JOUR

T1 - 中文OCR 文件檢索測試集之製作與應用

AU - 蔡, 孟竹(Mung-Chu Tsai)

AU - 曾, 元顯(Yuen-Hsien Tseng)

PY - 2003

Y1 - 2003

N2 - 本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。

AB - 本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。

KW - 光學文字辨譏

KW - 資訊檢索

KW - 則試集

KW - 成效評估

KW - 中文檢索

KW - OCR

KW - Information retrieval

KW - Test collection

KW - Effectiveness evaluation

KW - Chinese document retrieval

M3 - 文章

VL - 40

SP - 325

EP - 344

JO - Journal of Educational Media and Library Science

JF - Journal of Educational Media and Library Science

SN - 1013-090X

IS - 3

ER -