Page 63 - 《软件学报》2021年第7期
P. 63

王璐  等:基于事件关系保障识别质量的自适应分析方法                                                      1981


                 析 [17,18] 和事件关系分析 [24,25] 等方式识别事件并同时保障识别准确性的相关工作.其中,基于概率理论推理的方
                 式根据故障表现与状态数据的因果关系求解事件发生的概率,并最终选取概率最大或者较大的事件作为输出.
                 该方式可在一定程度上避免系统运行数据的波动性与随机性对事件识别的影响,从而保障识别的准确性,但其
                 考虑的因果关系维度较为单一.基于日志分析的方式或采用无监督机器学习算法提取日志特征并判别日志序
                 列是否存在异常,或建立异常检测框架将日志聚类成簇,并开展簇的特征与系统关键性能指标(KPIs)的关联分
                 析,以识别出影响 KPIs 的事件.相较于其他方式,该方式可获得除状态数据以外更多的操作信息(如用户登录和
                 用户发送 http 请求等行为信息)以辅助识别事件,从而保障识别的准确性.但该类方法很难判别故障类型,少有可
                 判别故障类型的方法也仅可处理影响系统关键性能指标(KPIs)的事件                       [18] .基于事件关系分析的方法目前主要
                 应用于网络安全和工业设备管理等领域.其中,网络安全领域中的相关方法主要开展对告警信息的关系分析,以
                 准确识别复杂网络攻击.工业设备管理领域中的相关方法则主要对设备声音、状态数据及设备故障进行关联关
                 系分析,以提升设备故障的识别准确性.这些关于告警信息或故障信息的关系分析,启发了本文的研究思路.
                    关于保障识别效率的问题,目前自适应领域缺乏直接相关的研究工作,相关研究主要集中于智能电网、云
                 计算等其他领域对故障检测效率的保障.例如,在智能电网领域,学者们采用通过改进网络数据监测能力以提升
                 电力网络故障检测的效率         [19] ,还有学者通过电力网络故障预测以提前识别发生的故障                  [20] ,或通过缩短检测模型
                 的训练时间以提升检测效率          [21] .在云计算领域,学者们将故障检测问题建模为线程序列模板匹配问题以提高故
                 障检测效率,或基于相似性图在检测故障的同时保障检测效率                     [22] .这些研究大多关注于对故障检测效率的提升,
                 只能快速判断出系统是否发生了故障,而不能快速识别出发生的具体故障信息.少部分故障预测方法的确可实
                 现对识别效率的保障,但其只针对特定领域展开研究,迁移到其他领域应用时存在一定困难.
                    综上所述,现有自适应分析方法主要侧重于实现事件识别功能而忽略了对识别质量的保障.自适应领域少
                 数考虑保障识别准确性的研究工作,大多侧重于对映射关系进行模糊化等优化操作,并未从根本上解决在不确
                 定环境中映射关系难以完全预定义、正确性难以保证等问题.本文率先引入事件关系作为自适应分析方法识别
                 事件的新因素,有助于保障识别过程的准确性.在保障识别效率方面,自适应领域缺乏相关工作且其他领域的特
                 定方法无法完全适用.因此,本文提出尽早获取识别事件所需的重要状态数据,从而保障识别效率的研究思路.

                 2    方法概览

                    首先,介绍 SAFER 中涉及到的自适应软件领域基础概念.
                    定义 1(感知对象).  感知对象是指感知过程实时采集并获取状态数据的对象,如反映系统物理资源状态的
                 CPU、内存、磁盘等;反映系统网络资源状态、网络性能的 I/O 负载等;反映服务状态的响应时间等.通过采集
                 感知对象的实时状态数据可全面且准确地判断当前运行环境是否发生了软件变化,因此感知对象也可称作感
                 知指标.
                                   [1]
                    定义 2(软件变化) .  软件变化是指运行环境发生的各类状态变化,可通过分析感知对象的状态数据变化
                 情况获得,具体包括网络环境的波动、系统计算资源的状态变化等.由于环境可能存在的瞬时波动以及调整策
                 略执行后对运行环境的影响,软件变化的发生不一定说明发生了导致系统需要进行调整的异常事件,因此需要
                 分析过程进行事件识别.
                                   [8]
                    定义 3(异常事件) .  异常事件,简称事件,是指由一个或多个软件变化衍变而来,并且影响系统目标实现的
                 异常或者突发情况,可分为软件资源异常、硬件资源异常、应用失效、网络连接异常等类型.其中,如软件资源
                 异常类型中就包括服务无响应、服务资源过载、服务出错率较高等具体事件.
                    定义 4(事件关系).  事件关系是指不同事件之间存在的关联关系,包括事件并发关系、事件时序关系和事件
                 因果关系等.以二元事件关系为例,事件并发关系 CR(e 1 ,e 2 )是指事件 e 1 和 e 2 同时发生,但不强调二者之间的先后
                 顺序.事件时序关系 TR(e 1 ,e 2 )是指 e 2 在 e 1 发生后设定的时间间隔内发生.事件因果关系 CR(e 1 ,e 2 )是指 e 1 的发生
                 导致了 e 2 的发生.若满足转化约束:TR(e 1 ,e 2 )发生的频率远大于 TR(e 2 ,e 1 )发生的频率,则表明 e 1 和 e 2 之间存在因
                 果关系  [26] ,TR(e 1 ,e 2 )可转化为 CR(e 1 ,e 2 ).
   58   59   60   61   62   63   64   65   66   67   68