主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张小明,李舟军,巢文涵.基于增量型聚类的自动话题检测研究.软件学报,2012,23(6):1578-1587
基于增量型聚类的自动话题检测研究
Research of Automatic Topic Detection Based on Incremental Clustering
投稿时间:2009-08-07  修订日期:2011-09-01
DOI:10.3724/SP.J.1001.2012.04111
中文关键词:  话题检测与跟踪  TDT  话题检测  增量型聚类  权重计算
英文关键词:topic detection and tracking  TDT  topic detection  incremental clustering  reweighting
基金项目:国家自然科学基金(61170189, 61003111); 国家教育部博士点基金(20101102120016); 国家重点实验室基金(SKLSDE-2011ZX-03)
作者单位E-mail
张小明 北京航空航天大学 计算机科学与工程系,北京 100191  
李舟军 北京航空航天大学 计算机科学与工程系,北京 100191 lizj@buaa.edu.cn 
巢文涵 北京航空航天大学 计算机科学与工程系,北京 100191  
摘要点击次数: 3922
全文下载次数: 5188
中文摘要:
      随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT 中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC 来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4 语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.
英文摘要:
      With the exponential growth of information on the Internet, it has become increasingly difficult to find and organize relevant material. Topic detection and tracking (TDT) is a research area addressing this problem. As one of the basic tasks of TDT, topic detection is the problem of grouping all stories, based on the topics they discuss. This paper proposes a new topic detection method (TPIC) based on an incremental clustering algorithm. The proposed topic detection strives to achieve a high accuracy and the capability of estimating the true number of topics in the document corpus. Term reweighing algorithm is used to accurately and efficiently cluster the given document corpus, and a self-refinement process of discriminative feature identification is proposed to improve the performance of clustering. Furthermore, topics' “aging” nature is used to precluster stories, and Bayesian information criterion (BIC) is used to estimate the true number of topics. Experimental results on linguistic data consortium (LDC) datasets TDT-4 show that the proposed model can improve both efficiency and accuracy, compared to other models.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利