主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020年专刊出版计划 微信服务介绍 最新一期:2019年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
曹玉娟,牛振东,赵堃,彭学平.基于概念和语义网络的近似网页检测算法.软件学报,2011,22(8):1816-1826
基于概念和语义网络的近似网页检测算法
Near Duplicated Web Pages Detection Based on Concept and Semantic Network
投稿时间:2009-10-09  修订日期:2010-01-20
DOI:10.3724/SP.J.1001.2011.03890
中文关键词:  网页去重算法  小世界网络  近似网页  均方差
英文关键词:duplicate removal algorithm  small world network  near duplicated Web page  standard deviation
基金项目:国家自然科学基金(60803050, 60705022); 新世纪优秀人才计划(NCET-06-0161)
作者单位E-mail
曹玉娟 北京理工大学 计算机科学技术学院,北京 100081
北京航天飞行控制中心,北京 100094 
cyjmdy@gmail.com 
牛振东 北京理工大学 计算机科学技术学院,北京 100081  
赵堃 北京理工大学 计算机科学技术学院,北京 100081  
彭学平 北京理工大学 计算机科学技术学院,北京 100081  
摘要点击次数: 4067
全文下载次数: 4483
中文摘要:
      在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了“表达差异”问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS 具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果.
英文摘要:
      Reprinting websites and blogs produces a great deal redundant WebPages. To improve search efficiency and user satisfaction, the near-Duplicate WebPages Detection based on Concept and Semantic network (DWDCS) is proposed. In the course of developing a near-duplicate detection system for a multi-billion pages repository, this paper makes two research contributions. First, the key concept is extracted, instead of the keyphrase, to build Small Word Network (SWN). This not only reduces the complexity of the semantic network, but also resolves the “expression difference” problem. Second, this paper considers both syntactic and semantic information to present and compute the documents’ similarities. In a large-scale test, experimental results demonstrate that this approach outperforms that of both I-Match and keyphrase extraction algorithms based on SWN. Many advantages such as linear time and space complexity, without using a corpus, make the algorithm valuable in actual practice.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利