主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第11期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
王晓东,赵一宁,肖海力,迟学斌,王小宁.多节点系统异常日志流量模式检测方法.软件学报,0,(0):0
多节点系统异常日志流量模式检测方法
Multi-node System Abnormal Log Flow Mode Detection Method
投稿时间:2018-06-08  修订日期:2018-09-10
DOI:10.13328/j.cnki.jos.005800
中文关键词:  异常日志流量  主成分分析  层次聚类  最长公共子序列  自适应K项集算法
英文关键词:abnormal log flow  principal component analysis  hierarchical clustering  longest common subsequence  adaptive K-itemset algorithm
基金项目:国家重点研发计划资助(2018YFB0204000);国家自然科学基金(61702477)
作者单位E-mail
王晓东 中国科学院计算机网络信息中心, 北京 100190
中国科学院大学, 北京 100049 
 
赵一宁 中国科学院计算机网络信息中心, 北京 100190 zhaoyn@sccas.cn 
肖海力 中国科学院计算机网络信息中心, 北京 100190  
迟学斌 中国科学院计算机网络信息中心, 北京 100190
中国科学院大学, 北京 100049 
 
王小宁 中国科学院计算机网络信息中心, 北京 100190  
摘要点击次数: 19
全文下载次数: 6
中文摘要:
      随着国家高性能计算环境各个结点产生日志数量不断增加,采用传统的人工方式进行异常日志分析已不能满足日常的分析需求.本文提出了一种异常日志流量模式的定义方法:同一结点相同时间片内日志类型的有序排列代表一种日志流量模式,并以该方法为出发点实现了一个异常日志流量模式检测方法,用来自动挖掘异常日志流量模式.该方法以系统日志入手,根据日志内容的文本相似度进行自动分类.然后将相同时间片内日志各个类型出现的次数作为输入特征,基于主成分分析的异常检测方法对该输入进行异常检测,得到大量异常的日志类型序列.之后使用基于最长公共子序列的距离度量对这些序列进行层次聚类并将聚类结果进行自适应K项集算法,以得出不同异常日志流量模式的序列代表.我们将国家高性能计算环境半年产生的日志根据不同时间段(早、晚、夜)使用上述方法进行分析,得出了不同时间段的异常日志流量模式和相互关系.本方法也可以推广到其他分布式系统的系统日志中.
英文摘要:
      With the increasing number of logs produced by nodes in CNGrid, traditional manual methods for abnormal log analysis can no longer meet the need of daily analysis. In this paper, we proposed a method to define the abnormal log traffic pattern:the orderly arrangement of log types in the same node and the same time slice represents a log traffic pattern. Based on this method, a log traffic pattern detection method is implemented, which is applyed in automatically mine abnormal log traffic patterns. The method starts with system log and classifies automatically according to the text similarity of log content. Then the frequency of each types of log in the same time slice is taken as the input feature, and the anomaly detection method based on Principal Component Analysis is used to detect the abnormal input, and a large number of abnormal log type sequences are obtained. A distance metric based on the longest common subsequence is used to cluster these sequences by hierarchical clustering method. The clustering results are used with the adaptive K-Itemset algorithm to get the deputies of the abnormal log flow modes. We use the above method to analyze the logs generated in the national high performance computing environment/CNGrid in half a year according to different time periods(morning,night,midnight), and obtain the abnormal log traffic patterns and their relationships in different time periods. The method can also be extended to the system logs of other distributed systems.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利