主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020年专刊出版计划 微信服务介绍 最新一期:2019年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
杨宁,唐常杰,王悦,陈瑜,郑皎凌,李红军.基于流信息距离的多文本流热点挖掘.软件学报,2011,22(8):1761-1770
基于流信息距离的多文本流热点挖掘
Mining Hotspots from Multiple Text Streams Based on Stream Information Distance
投稿时间:2009-10-12  修订日期:2010-03-29
DOI:10.3724/SP.J.1001.2011.03893
中文关键词:  热点挖掘  多文本流  流信息距离  冗余信息  Kolmogorov 复杂度
英文关键词:hotspot mining  multiple text streams  stream information distance  redundant information  Kolmogorov complexity
基金项目:国家自然科学基金(600773169); 国家科技支撑计划(2006BAI05A01)
作者单位E-mail
杨宁 四川大学 计算机学院,四川 成都 610065 yneversky@gmail.com 
唐常杰 四川大学 计算机学院,四川 成都 610065  
王悦 四川大学 计算机学院,四川 成都 610065  
陈瑜 四川大学 计算机学院,四川 成都 610065  
郑皎凌 四川大学 计算机学院,四川 成都 610065  
李红军 四川大学 计算机学院,四川 成都 610065  
摘要点击次数: 3682
全文下载次数: 3237
中文摘要:
      把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov 复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov 复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov 复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性.
英文摘要:
      This paper characterizes the local and global hotspots in text streams and elaborates their correlation. The paper then applies Kolmogorov complexity to mining the hotspots in multiple text streams. The Redundant Information is defined based on Kolmogorov complexity, and it has been demonstrated that the Redundant Information exceeding a threshold is necessary for the local hotspots. Secondly, a similarity metric, termed as Stream Information Distance (SID), is suggested based on the conditional Kolmogorov complexity to quantify the similarity between different text streams. Borrowing ideas of Phylogeny originated from Computational Biology, a heuristic algorithm based on hierarchical clustering is proposed to mine the global hostspots from multiple text streams. Finally, the convergency, effectiveness, and scalability of this algorithm are validated by the extensive experiments over synthetic and real data set.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利