多节点系统异常日志流量模式检测方法
作者:
作者单位:

作者简介:

王晓东(1989-),男,博士生,主要研究领域为日志处理分析,数据挖掘,机器学习.
赵一宁(1983-),男,博士,助理研究员,主要研究领域为日志处理分析,数据挖掘.
肖海力(1978-),男,博士,研究员,CCF专业会员,主要研究领域为网格计算,分布式计算.
迟学斌(1963-),男,博士,研究员,博士生导师,CCF杰出会员,主要研究领域为并行计算与软件,网格计算技术,高性能计算机系统维护与管理.
王小宁(1981-),女,博士,副研究员,主要研究领域为分布式计算,网格计算.

通讯作者:

赵一宁,E-mail:zhaoyn@sccas.cn

中图分类号:

基金项目:

国家重点研发计划(2018YFB0204002);国家自然科学基金(61702477)


Multi-node System Abnormal Log Flow Mode Detection Method
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2018YFB0204002); National Natural Science Foundation of China (61702477)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着国家高性能计算环境各个节点产生日志数量的不断增加,采用传统的人工方式进行异常日志分析已不能满足日常的分析需求.提出一种异常日志流量模式的定义方法:同一节点相同时间片内日志类型的有序排列代表了一种日志流量模式,并以该方法为出发点,实现了一个异常日志流量模式检测方法,用来自动挖掘异常日志流量模式.该方法从系统日志入手,根据日志内容的文本相似度进行自动分类.然后将相同时间片内日志各个类型出现的次数作为输入特征,基于主成分分析的异常检测方法对该输入进行异常检测,得到大量异常的日志类型序列.之后,使用基于最长公共子序列的距离度量对这些序列进行层次聚类,并将聚类结果进行自适应K项集算法,以得出不同异常日志流量模式的序列代表.将国家高性能计算环境半年产生的日志根据不同时间段(早、晚、夜)使用上述方法进行分析,得出了不同时间段的异常日志流量模式和相互关系.该方法也可以推广到其他分布式系统的系统日志中.

    Abstract:

    With the increasing number of logs produced by nodes in CNGrid, traditional manual methods for abnormal log analysis can no longer meet the need of daily analysis. This study proposed a method to define the abnormal log traffic pattern: The orderly arrangement of log types in the same node and at the same time slice represents a log traffic pattern. Based on this method, a log traffic pattern detection method was implemented, which was applied in automatically mine of abnormal log traffic pattern. The method starts with system log and classifies automatically according to the text similarity of log content. Then, the frequency of each types of log in the same time slice is taken as the input feature, and the anomaly detection method based on principal component analysis (PCA) is used to detect the abnormal input, and a large number of abnormal log type sequences are obtained. A distance metric based on the longest common subsequence is used to cluster these sequences by hierarchical clustering method. The clustering results are used with the adaptive K-itemset algorithm to get the deputies of the abnormal log flow modes. The above method was used to analyze the logs generated in the national high performance computing environment CNGrid in half a year according to different time periods (morning, night, midnight), and has obtained the abnormal log traffic patterns and their relationships in different time periods. The method can also be extended to the system logs of other distributed systems.

    参考文献
    相似文献
    引证文献
引用本文

王晓东,赵一宁,肖海力,迟学斌,王小宁.多节点系统异常日志流量模式检测方法.软件学报,2020,31(10):3295-3308

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-06-08
  • 最后修改日期:2018-09-10
  • 录用日期:
  • 在线发布日期: 2019-11-07
  • 出版日期: 2020-10-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号