分類不一致對文件自動分類效果的影響

研究成果: 雜誌貢獻文章同行評審

摘要

本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即使高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即使過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。
原文???core.languages.zh_TW???
頁(從 - 到)2-19
頁數18
期刊大學圖書館
9
發行號1
出版狀態已發佈 - 2005

Keywords

  • 文件分類
  • 一致性
  • 分類測試集
  • 主題分析
  • 複本偵測
  • Document classification
  • Consistency
  • Test collection for categorization
  • Subject analysis
  • Duplicate detection

引用此