流式处理的异步图处理框架
作者:
作者单位:

作者简介:

李金吉(1993-),男,吉林松原人,硕士生,主要研究领域为大数据处理,分布式系统;于戈(1962-),男,博士,教授,博士生导师,CCF会士,主要研究领域为数据库,分布式系统,嵌入式系统;张岩峰(1982-),男,博士,教授,CCF专业会员主要研究领域为大数据处理,分布式系统,云计算;高立新(1968-),女,博士,教授,博士生导师,主要研究领域为社交网络,路由策略,网络虚拟化,云计算;巩树凤(1991-),男,博士生,主要研究领域为大数据处理,分布式系统.

通讯作者:

张岩峰,E-mail:zhangyf@mail.neu.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(61672141,61528203);计算机体系结构国家重点实验室开放课题(CARCH201610);中央高校基本科研业务费专项资金(N161604008)


Streamlined Asynchronous Graph Processing Framework
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61672141, 61528203);State Key Laboratory of Computer Architecture, CAS (CARCH201610);Fundamental Research Funds for the Central Universities (N161604008)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    分布式图计算是目前处理大图数据的主流技术,但是存在诸多无法避免的问题,比如分布式计算的负载均衡和分布式实现的调试和优化仍然非常困难.另一方面,近几年的研究结果表明:通过设计合理的数据结构和处理模型,在单个PC上基于大容量磁盘的大图计算往往可以获得与分布式图计算相当的处理性能.例如,GraphChi在单机上的处理性能与Spark在50台节点上的处理性能相差无几.结合累加迭代计算和单机并行处理技术,提出流式处理的异步计算模型ASP.它实现了对磁盘的完全顺序访问,允许流式的顺序载入结构数据的同时进行异步更新计算.基于ASP模型,提出了一种流式处理的异步图处理框架S-Maiter,实现了高效率的基于外存的单机大图处理,通过I/O线程优化、内存资源监控、shard级优先级调度等优化技术,提高了系统处理大图数据的性能.实验结果表明:在处理大图数据(1 300万顶点,5亿连边)时,仅仅需要1台PC机计算资源的S-Maiter与在16台PC上运行的分布式Maiter的性能几乎相当.并且,S-Maiter比另外一个流行的单机大图处理系统GraphChi要快1.5倍.

    Abstract:

    Distributed graph processing is mainstream but suffers from a few unavoidable issues, such as workload imbalancing and the debugging/optimizing difficulties in distributed programs. On the other hand, recent research results show that with a reasonable design of data structure and processing model, graph processing on a single PC can achieve comparable performance as the systems using large number of machines. For example, GraphChi on a single PC can achieve almost the same performance with Spark with 50 nodes. In this paper, a streamlined asynchronous graph processing model, ASP is proposed based on accumulated iterative model and external storage based parallel computing techniques. ASP relies on sequential disk access and allows asynchronous computations on the graph structure data. Based on ASP, a streamlined graph processing framework, S-Maiter is designed and implemented to provide high performance graph processing ability on a single PC. By optimizing I/O threading, memory monitoring, and shard-level priority scheduling, the performance of S-Maiter is greatly improved. Experimental results on a big graph dataset (13 million nodes and 500 million edges) show that, 1-node S-Maiter can achieve comparable performance with distributed Maiter with 16 nodes. Furthermore, S-Maiter is 1.5 times faster than the popular single-PC graph processing system GraphChi.

    参考文献
    相似文献
    引证文献
引用本文

李金吉,张岩峰,巩树凤,于戈,高立新.流式处理的异步图处理框架.软件学报,2018,29(3):528-544

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-07-31
  • 最后修改日期:2017-09-05
  • 录用日期:
  • 在线发布日期: 2017-12-05
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号