臺灣歷史人物文本檢索與探勘系統之建置

謝 順宏(Shun-Hong Sie), 柯 皓仁(Hao-Ren Ke), 張 素玢(Su-bing Chang)

Research output: Contribution to journalArticle

Abstract

「人物」是歷史學研究重要的實體類型之一,因此,對人物傳記的深入了解有助於歷史事件的相關研究。目前許多人物傳記資料是以數位文件的形式存在,而要以人力從大量人物傳記中爬梳、彙整資料頗為曠日廢時,宜妥為運用資訊科技協助歷史學家。此外,儘管臺灣過去已建置眾多資料庫,也有各種人物傳和可資應用的資料文獻,卻較少進行歷史人物資料庫勘考、分析工具的開發。有鑑於此,研究者乃組成研究團隊,以《新修彰化縣志‧人物志》為文本來源,發展資料庫檢索、全文檢索、文本探勘與社會網絡等分析工具,協助歷史人文學進行研究,長期目標為建置「臺灣歷史人物資料庫(Taiwan Biographical Database, TBDB)」。本研究主旨在於描述「臺灣歷史人物資料庫」現階段所收錄之人物特性,闡述系統架構,以及說明初步成果。此外,本研究將提出一套演算法辨識《新修彰化縣志‧人物志》中的命名實體(named entity),並以詩社名稱辨識為例說明。該套演算法的召回率達96%,精確率則為65%。最後,本研究將說明建置「臺灣歷史人物資料庫」過程中習得之經驗和未來發展方向。
Original languageChinese
Pages (from-to)67-87
Number of pages21
Journal圖資與檔案學刊
Issue number92
DOIs
Publication statusPublished - 2018

Cite this

臺灣歷史人物文本檢索與探勘系統之建置. / 謝順宏(Shun-Hong Sie); 柯皓仁(Hao-Ren Ke); 張素玢(Su-bing Chang).

In: 圖資與檔案學刊, No. 92, 2018, p. 67-87.

Research output: Contribution to journalArticle

謝順宏(Shun-Hong Sie) ; 柯皓仁(Hao-Ren Ke) ; 張素玢(Su-bing Chang). / 臺灣歷史人物文本檢索與探勘系統之建置. In: 圖資與檔案學刊. 2018 ; No. 92. pp. 67-87.
@article{300eb2601dde45c6a86a6d7bedff9ca4,
title = "臺灣歷史人物文本檢索與探勘系統之建置",
abstract = "「人物」是歷史學研究重要的實體類型之一,因此,對人物傳記的深入了解有助於歷史事件的相關研究。目前許多人物傳記資料是以數位文件的形式存在,而要以人力從大量人物傳記中爬梳、彙整資料頗為曠日廢時,宜妥為運用資訊科技協助歷史學家。此外,儘管臺灣過去已建置眾多資料庫,也有各種人物傳和可資應用的資料文獻,卻較少進行歷史人物資料庫勘考、分析工具的開發。有鑑於此,研究者乃組成研究團隊,以《新修彰化縣志‧人物志》為文本來源,發展資料庫檢索、全文檢索、文本探勘與社會網絡等分析工具,協助歷史人文學進行研究,長期目標為建置「臺灣歷史人物資料庫(Taiwan Biographical Database, TBDB)」。本研究主旨在於描述「臺灣歷史人物資料庫」現階段所收錄之人物特性,闡述系統架構,以及說明初步成果。此外,本研究將提出一套演算法辨識《新修彰化縣志‧人物志》中的命名實體(named entity),並以詩社名稱辨識為例說明。該套演算法的召回率達96{\%},精確率則為65{\%}。最後,本研究將說明建置「臺灣歷史人物資料庫」過程中習得之經驗和未來發展方向。",
keywords = "臺灣歷史人物資料庫, 文本檢索, 文本探勘, 社會網絡分析, 命名實體辨識, Taiwan Biographical Database (TBDB), Text retrieval, Text mining, Social network analysis (SNA), Name entity recognition",
author = "謝, {順宏(Shun-Hong Sie)} and 柯, {皓仁(Hao-Ren Ke)} and 張, {素玢(Su-bing Chang)}",
year = "2018",
doi = "10.6575/JILA.201806_",
language = "Chinese",
pages = "67--87",
journal = "圖資與檔案學刊",
issn = "2412-1800",
publisher = "政治大學圖書館",
number = "92",

}

TY - JOUR

T1 - 臺灣歷史人物文本檢索與探勘系統之建置

AU - 謝, 順宏(Shun-Hong Sie)

AU - 柯, 皓仁(Hao-Ren Ke)

AU - 張, 素玢(Su-bing Chang)

PY - 2018

Y1 - 2018

N2 - 「人物」是歷史學研究重要的實體類型之一,因此,對人物傳記的深入了解有助於歷史事件的相關研究。目前許多人物傳記資料是以數位文件的形式存在,而要以人力從大量人物傳記中爬梳、彙整資料頗為曠日廢時,宜妥為運用資訊科技協助歷史學家。此外,儘管臺灣過去已建置眾多資料庫,也有各種人物傳和可資應用的資料文獻,卻較少進行歷史人物資料庫勘考、分析工具的開發。有鑑於此,研究者乃組成研究團隊,以《新修彰化縣志‧人物志》為文本來源,發展資料庫檢索、全文檢索、文本探勘與社會網絡等分析工具,協助歷史人文學進行研究,長期目標為建置「臺灣歷史人物資料庫(Taiwan Biographical Database, TBDB)」。本研究主旨在於描述「臺灣歷史人物資料庫」現階段所收錄之人物特性,闡述系統架構,以及說明初步成果。此外,本研究將提出一套演算法辨識《新修彰化縣志‧人物志》中的命名實體(named entity),並以詩社名稱辨識為例說明。該套演算法的召回率達96%,精確率則為65%。最後,本研究將說明建置「臺灣歷史人物資料庫」過程中習得之經驗和未來發展方向。

AB - 「人物」是歷史學研究重要的實體類型之一,因此,對人物傳記的深入了解有助於歷史事件的相關研究。目前許多人物傳記資料是以數位文件的形式存在,而要以人力從大量人物傳記中爬梳、彙整資料頗為曠日廢時,宜妥為運用資訊科技協助歷史學家。此外,儘管臺灣過去已建置眾多資料庫,也有各種人物傳和可資應用的資料文獻,卻較少進行歷史人物資料庫勘考、分析工具的開發。有鑑於此,研究者乃組成研究團隊,以《新修彰化縣志‧人物志》為文本來源,發展資料庫檢索、全文檢索、文本探勘與社會網絡等分析工具,協助歷史人文學進行研究,長期目標為建置「臺灣歷史人物資料庫(Taiwan Biographical Database, TBDB)」。本研究主旨在於描述「臺灣歷史人物資料庫」現階段所收錄之人物特性,闡述系統架構,以及說明初步成果。此外,本研究將提出一套演算法辨識《新修彰化縣志‧人物志》中的命名實體(named entity),並以詩社名稱辨識為例說明。該套演算法的召回率達96%,精確率則為65%。最後,本研究將說明建置「臺灣歷史人物資料庫」過程中習得之經驗和未來發展方向。

KW - 臺灣歷史人物資料庫

KW - 文本檢索

KW - 文本探勘

KW - 社會網絡分析

KW - 命名實體辨識

KW - Taiwan Biographical Database (TBDB)

KW - Text retrieval

KW - Text mining

KW - Social network analysis (SNA)

KW - Name entity recognition

U2 - 10.6575/JILA.201806_

DO - 10.6575/JILA.201806_

M3 - 文章

SP - 67

EP - 87

JO - 圖資與檔案學刊

JF - 圖資與檔案學刊

SN - 2412-1800

IS - 92

ER -