基于距离度量的多样性图排序方法
CSTR:
作者:
作者单位:

作者简介:

李劲(1975-),男,云南大理人,博士,副教授,CCF专业会员主要研究领域为数据与知识工程;张志坚(1980-),男,讲师,主要研究领域为数据与知识工程;岳昆(1979-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为数据与知识工程;刘惟一(1950-),男,教授,博士生导师,CCF高级会员,主要研究领域为数据与知识工程;蔡娇(1992-),女,硕士生,主要研究领域为数据与知识工程.

通讯作者:

岳昆,E-mail:kyue@ynu.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(61562091,61472345);第二批"云岭学者"培养项目(C6153001);云南省应用基础研究计划(2014FA023,2016FB110);云南大学中青年骨干教师培养计划项目;云南大学青年英才培育计划(WX173602);云南大学数据驱动的软件工程科技创新团队项目(2017HC012)


Distance Metric Based Diversified Ranking on Large Graphs
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61562091, 61472345);Program for the Second Batch of Yunling Scholar of Yunnan Province (C6153001);Natural Science Foundation of Yunnan Province (2014FA023, 2016FB110);Foundation of Backbone Teacher Development of Yunnan University (WX173602);Program for Excellent Young Talents of Yunnan University (XT412003);Project of Data Driven Software Engineeringinnovation Team of Yunnan University, Yunnan Province (2017HC012)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    有效结合查询相关性和多样性的扩展相关性,是多样性图排序问题的一种优化目标.基于扩展相关性的多样性图排序可建模为一个子模函数优化问题,贪心子模优化算法可近似求解该问题.然而,扩展相关性不能直接度量节点间的不相似性.子模优化算法是串行算法,不能充分利用诸如Spark等集群计算平台有效提高算法效率.针对这些问题,提出一种描述节点间不相似性的距离度量.基于该距离度量,将多样性图排序问题建模为一个在查询相关节点集上构造的带权完全图的最大和k-dispersion优化问题.提出了求解该问题的多项式时间2-近似算法.鉴于不同节点对的距离度量计算是相互独立的,进一步提出了基于MapReduce编程模型的并行化多样性图排序算法.最后,在真实图数据集上验证了所提出算法的高效性和有效性.

    Abstract:

    Expansion relevance which combines both relevance and diversity into a single function is resorted to a submodular optimization objective that can be solved by applying the classic cardinality constrained monotone submodular maximization. However, expansion relevance do not directly capture the dis-similarity over a pair of nodes. Existing submodular algorithms are sequential and not easy to take full advantage of the power of distributed cluster computing platform, such as Spark, to significantly improve the efficiency of algorithm. To tackle this issue, in this paper, a distance metric, which is defined by a sum function of personalized PageRank scores over the symmetry difference of neighbors of a pair of nodes, is first introduced to capture the pairwise dis-similarity over pairs of nodes. Then, the problem of diversified ranking on graphs is formulated as a max-sum k-dispersion problem with metrical edge weight. A polynomial time 2-approximate algorithm is proposed to solve the problem. Considering the computational independence of different pairs of nodes, a MapReduce algorithm is further developed to boost the efficiency of the process. Finally, extensive experiments are conducted on real network datasets to verify the effectiveness and efficiency of the proposed algorithm.

    参考文献
    相似文献
    引证文献
引用本文

李劲,岳昆,蔡娇,张志坚,刘惟一.基于距离度量的多样性图排序方法.软件学报,2018,29(3):599-613

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-08-02
  • 最后修改日期:2017-09-05
  • 录用日期:
  • 在线发布日期: 2017-12-05
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号