Page 331 - 《软件学报》2020年第10期
P. 331
王晓东 等:多节点系统异常日志流量模式检测方法 3307
新的流量的数字特征与已经得到的异常流量情景进行对比,从而较快速地分析出流量的异常与否以及其所属
的异常流量情景.因此,后续可关注的一个研究方向是,如何将该方法得到的异常检测模型运用于实时线上的异
常流量检测中.
5 总结和展望
本文介绍了一个无监督异常检测方法自动挖掘系统日志的异常日志流量模式,该检测方法可以自动找到
系统日志的异常时间段,并统计时间段内不同节点的日志出现序列.本文定义了日志类型序列代表异常日志流
量模式,且基于日志类型序列的相似度进行层次聚类.聚类过程中,可以全自动地得到最优参数.聚类结果根据
日志类型的平均数量得到易于判断的异常日志流量模式.我们使用该系统对国家高性能计算环境下半年产生
的系统 secure 类型日志进行测试,最终得到 6 种异常日志流量模式.本文在处理日志分类时,采用的是字符串比
较法.所以理论上,只要是 ASCII 码格式的日志都可以自动进行分类,然后即可将单位时间的日志流量抽象成向
量进行后续的异常检测处理.在实际使用中,本方法对于自然语言文本类型的日志适用性更好(该类型日志内容
通常为一个英文句子,易于分类),而对于纯变量类型的日志适用性相对一般(例如 tomcat 的 access log).
本文只是针对单一日志异常流量做了一些前期探索工作,未来还有很多值得关注的研究点.今后的工作主
要针对以下几个方面:将该异常模式得出的结果运用在流量的监控和预测上;该方法用于不同种类的日志,通过
不同种类日志的关联关系进行分析,以找到更全面的异常日志流量模式;基于日志类型序列的角度进行更多不
同维度的日志分析方法研究,例如日志类型序列的关联性分析等.
References:
[1] Zhao Y, Xiao H. The design of LARGE: Log analyzing framework in grid environment. e-Science Technology & Application, 2016,
7(3):3−7 (in Chinese with English abstract).
[2] Dokas P, Ertoz L, Kumar V, et al. Data mining for network intrusion detection. In: Proc. of the NSF Workshop on Next Generation
Data Mining. 2002. 15.
[3] Vaarandi R. SEC—A lightweight event correlation tool. In: Proc. of the 2002 IEEE Workshop on IP Operations and Management.
IEEE, 2002. 111−115.
[4] Rouillard JP. Real-Time log file analysis using the simple event correlator (SEC). In: Proc. of the Conf. on Systems Administration.
DBLP, 2004. 133−150.
[5] Vaarandi R, Blumbergs B, Çalışkan E. Simple event correlator—Best practices for creating scalable configurations. In: Proc. of the
IEEE Int’l Inter-Disciplinary Conf. on Cognitive Methods in Situation Awareness and Decision Support. IEEE, 2015. 96−100.
[6] Vaarandi R. A data clustering algorithm for mining patterns from event logs. In: Proc. of the IP Operations & Management. IEEE,
2003. 119−126.
[7] Vaarandi R. A breadth-first algorithm for mining frequent patterns from event logs. In: Proc. of the IFIP Int’l Conf. on Intelligence
in Communication Systems (INTELLCOMM 2004). Bangkok: DBLP, 2004. 293−308.
[8] Makanju AAO, Zincir-Heywood AN, Milios EE. Clustering event logs using iterative partitioning. In: Proc. of the ACM SIGKDD
Int’l Conf. on Knowledge Discovery and Data Mining. Paris: DBLP, 2009. 1255−1264.
[9] Vaarandi R, Pihelgas M. LogCluster—A data clustering and pattern mining algorithm for event logs. In: Proc. of the Int’l Conf. on
Network and Service Management. IEEE, 2016. 1−7.
[10] Xu W, Ling H, Armando F, et al. Detecting large-scale system problems detection by mining console logs. In: Proc. of the ACM
SIGOPS Symp. on Operating Systems Principles Big Sky MT. 2013. 2009.
[11] Fronza I, Sillitti A, Succi G, et al. Failure prediction based on log files using random indexing and support vector machines.
Journal of Systems & Software, 2013,86(1):2−11.
[12] Weiss GM, Hirsh H. Learning to predict rare events in event sequences. In: Proc. of the Int’l Conf. on Knowledge Discovery &
Data Mining. 1998.