分類不一致對文件自動分類效果的影響

Research output: Contribution to journalArticle

Abstract

本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即使高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即使過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。
Original languageChinese
Pages (from-to)2-19
Number of pages18
Journal大學圖書館
Volume9
Issue number1
Publication statusPublished - 2005

Cite this

分類不一致對文件自動分類效果的影響. / 曾元顯(Yuen-Hsien Tseng).

In: 大學圖書館, Vol. 9, No. 1, 2005, p. 2-19.

Research output: Contribution to journalArticle

@article{ba333173d833444fb163e46f64d8d799,
title = "分類不一致對文件自動分類效果的影響",
abstract = "本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即使高達34{\%},幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即使過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。",
keywords = "文件分類, 一致性, 分類測試集, 主題分析, 複本偵測, Document classification, Consistency, Test collection for categorization, Subject analysis, Duplicate detection",
author = "曾, {元顯(Yuen-Hsien Tseng)}",
year = "2005",
language = "Chinese",
volume = "9",
pages = "2--19",
journal = "大學圖書館",
issn = "1682-2889",
publisher = "國立臺灣大學圖書館",
number = "1",

}

TY - JOUR

T1 - 分類不一致對文件自動分類效果的影響

AU - 曾, 元顯(Yuen-Hsien Tseng)

PY - 2005

Y1 - 2005

N2 - 本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即使高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即使過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。

AB - 本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即使高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即使過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。

KW - 文件分類

KW - 一致性

KW - 分類測試集

KW - 主題分析

KW - 複本偵測

KW - Document classification

KW - Consistency

KW - Test collection for categorization

KW - Subject analysis

KW - Duplicate detection

M3 - 文章

VL - 9

SP - 2

EP - 19

JO - 大學圖書館

JF - 大學圖書館

SN - 1682-2889

IS - 1

ER -