AmazeMap:基于多层次影响图的微服务故障定位方法
作者:
作者单位:

作者简介:

李亚晓(2000—),男,博士生,CCF学生会员,主要研究领域为智能化运维,微服务;李青山(1973—),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为国产开源软件,软件体系结构,自适应软件演化,智能化运维,智能软件工程;王璐(1991—),女,博士,副教授,CCF高级会员,主要研究领域为智能化运维,微服务与云原生,软件演化;姜宇轩(1999—),男,硕士生,主要研究领域为微服务故障诊断.

通讯作者:

王璐,E-mail:wanglu@xidian.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(62372351,U21B2015);陕西省科协青年人才托举计划(20220113)


AmazeMap: Microservices Fault Localization Method Based on Multi-level Impact Graph
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    微服务软件系统由于其具有大量复杂的服务依赖关系和组件化模块, 一个服务发生故障往往造成与之相关的1个或多个服务发生故障, 导致故障定位的难度不断提高. 因此, 如何有效地检测系统故障、快速而准确地定位故障根因问题, 是当前微服务领域研究的重点. 现有研究一般通过分析故障对服务、指标的作用关系来构建故障关系模型, 但存在运维数据利用不充分、故障信息建模不全面、根因定位粒度粗等问题, 因此提出了AmazeMap方法. 该方法设计了多层次故障影响图建模方法以及基于多层次故障影响图的微服务故障定位方法. 其中: 多层次故障影响图建模方法通过挖掘系统运行时指标时序数据与链路数据, 考虑不同层次间的相互关系, 能够较全面地建模故障信息; 基于多层次故障影响图的微服务故障定位方法通过缩小故障影响范围, 从服务实例和指标两个方面发现根因, 输出最有可能的故障根因节点和指标序列. 基于开源基准微服务系统和AIOps挑战赛数据集, 从有效性和效率两个方面设计了微服务软件故障定位实验, 并与现有方法进行对比, 实验结果验证了AmazeMap的有效性、准确性和效率.

    Abstract:

    Due to the large number of complex service dependencies and componentized modules, a failure in one service often causes one or more related services to fail, making it increasingly difficult to locate the cause of the failure. Therefore, how to effectively detect system faults and locate the root cause of faults quickly and accurately is the focus of current research in the field of microservices. Existing research generally builds a failure relationship model by analyzing the relationship between failures and services and metrics, but there are problems such as insufficient utilization of operation and maintenance data, incomplete modeling of fault information, coarse granularity of root cause localization, etc. Therefore, this study proposes AmazeMap, for which a multi-level fault impact graph modeling method and a microservice fault localization method are designed based on the fault impact graph. Specifically, the multi-level fault impact graph modeling method can comprehensively model the fault information by mining the collected temporal metric data and trace data while system running and considering the interrelationships between different levels; the fault localization method narrows the scope of fault impact, discovers the root cause from service instances and metrics, and finally outputs the most probable root cause of fault and metrics sequence. Based on an open-source benchmark microservice system and the AIOps contest dataset, this study designs experiments to validate AmazeMap, and also compares it with the existing methods. The results confirm AmazeMap’s effectiveness, accuracy, and efficiency.

    参考文献
    相似文献
    引证文献
引用本文

李亚晓,李青山,王璐,姜宇轩. AmazeMap:基于多层次影响图的微服务故障定位方法.软件学报,2024,35(7):3115-3140

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-09-08
  • 最后修改日期:2023-10-30
  • 录用日期:
  • 在线发布日期: 2024-01-05
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号