Page 317 - 《软件学报》2021年第5期

P. 317

马钰锡等:面向智能攻击的行为预测研究 1541

训练样本规模等特征的对比分析,可以看出:各种方法在不同的领域均有其适用性或局限性,也因此适用于不同
的应用场景.基于以上表述,本节对基于神经网络、博弈论、攻击图以及数据挖掘这 4 种主流智能攻击行为的
预测方法的算法特点和适用范围进行讨论,结果展示见表 4.

Table 4 Application scope of methods for behavior-prediction of intelligent attack
表 4 智能攻击行为的预测方法适用范围

方法类型算法特点适用范围
神经网络基于大规模样本训练,良好的拟合性和数据表征能力密集型攻击、大规模攻击场景
博弈论考虑收益的战略性推理,复杂攻击意图识别复杂意图攻击、多模式攻击
攻击图小规模数据表现较好,实时性高小规模数据场景
数据挖掘海量数据的挖掘、分类和归纳,深层数据特征描述密集型攻击、大规模攻击场景,如钓鱼网站
如表 4 所示,基于图网络的预测方法对小规模的数据表现较好,但需要一定的先验知识,因此更适用于小规
模数据场景;基于神经网络的预测方法基于大量样本训练,准确率较高,但是对数据样本依赖性较强,模型训练
耗时久,适用于主机入侵、网络攻击等,大量的威胁情报或者系统日志可以为神经网络模型提供充足的训练数
据,有效提高模型精度和鲁棒性.与图形模型检查方法相反,基于博弈论的推理式预测方法旨在为“玩家”(防御
者)找到最佳策略,而不是通过历史数据观察和找到最频繁的攻击,此类方法对于高级攻击者活动的预测有较广
泛的应用前景.基于数据挖掘的预测方法在对钓鱼网站的预测有较好的表现,网络钓鱼通过模仿合法网站来欺
骗在线用户以窃取其敏感信息.由于反网络钓鱼解决方案旨在准确地预测网站类别,与数据挖掘分类技术的目
标完全匹配,网络钓鱼可以看作是数据挖掘中的典型分类问题,其中,分类器由大量网站的特征构成.
在实际场景中,用户也可以根据不同智能攻击的特点选择合适的预测方法.例如:网络攻击通常频繁、密集,
数据量较大,可以选择基于神经网络的预测方法训练深度模型,能够对未来网络态势有较好的理解和估计;而对
物联网中无人车、无人机等攻击,通常具备一定的竞争和对抗性,则可以考虑基于博弈论的预测方法,甚至选择
多种预测方法相结合,以期达到最优的效果.
4 研究展望

日益增长和复杂化的智能攻击正逐渐发展为人工智能领域中的隐患,虽然针对智能攻击的预测取得了一
定的研究成果,但由于智能攻击随着 AI 技术的发展不断演变和进化,为该领域提出了更多新的挑战.通过前文
对当前智能攻击行为预测相关的研究热点和主要工作的分析,本节对该领域的现存问题和未来研究趋势加以
阐述.
4.1 复杂攻击场景建模与技术迁移
从表 1 的相关工作统计中可以看出,当前对智能攻击行为预测的研究工作多数集中于网络攻击领域:一方
面,网络智能攻击通常具备多事件攻击场景,且多个攻击事件具有一定的逻辑关系,容易实现建模和分析;另一
方面,网络攻击易于产生大量完备信息的数据,如威胁情报、主机入侵日志等,为预测模型的训练数据提供支撑.
然而,某些系统攻防的场景下,例如对抗攻击中代表性的基于有限内存的 BFGS(limited-memory broyden-
fletcher-goldfarb-shan-no,简称 L-BFGS)、快速梯度符号法(fast gradient sign method,简称 FGSM)等白盒攻击,其
原理是通过访问模型的结构和权重,计算真实的模型梯度或近似梯度,根据防御方法和参数调整其攻击方法,但
根本性质为一次性的静态攻击;又如物联网智能设备的某些攻击,多次攻击行为之间可能无法具备直接的关联,
或是行为特征的提取较为困难,例如已加密的路由器进出站流量、深度数据包等.此外,随着 AI 技术的发展,新
的攻击媒介和安全范式不断出现,如何进行建模和预测,以及把网络攻击的预测技术迁移或拓展到上述领域中,
将是未来需要重点研究的方向之一.

4.2 可信数据与隐私保护
Yahoo 公司 30 亿账户数据泄密而崩溃,Heartland 支付系统 1.34 亿信用卡账号、Equifax 超过 1.455 亿用户
数据被窃取 [76] ,海量的用户数据是构建预测模型的重要支撑,但同时也是智能攻击的主要目标与数据来源.构建

312 313 314 315 316 317 318 319 320 321 322