Page 308 - 《软件学报》2021年第9期
P. 308
2932 Journal of Software 软件学报 Vol.32, No.9, September 2021
Table 13 Comparison with other existing approaches (Continued)
表 13 与现有检测方法对比(续)
测试数据集(数目/来源/时间) 测试结果
方法 特征选取
正常样本 恶意样本 准确率(%) 召回率(%) F 值
监控动态执行函数和堆内存信息, 309/ 181/
文献[15] 分别提取脚本插入、URL 跳转和 Alexa/ VirusShare/ 96.94 − —
堆恶意操作等指标组成特征向量 未知 2017.03
利用 URL 长度和隐藏标签的数量等静态 787/ 682/Malware
文献[17] 页面特征,先机器学习分类,再动态执行 Alexa/ domain 95.2 88.2 0.916
未知页面,监控系统进程和注册表操作等行为 未知 list/未知
5.6 测试结果观察
我们将数据集 2 中的恶意网站在 10 种模拟客户端环境下特征值序列进行了分析,统计了这些特征值序列
被分类器模型判断为恶意网站的分布,得到每个恶意网站对 10 种客户端环境进行攻击的数量,统计结果如图
13(a)所示,其中,对 3 种客户端环境进行攻击的恶意网站数量最多.我们发现:恶意网站通常会对多种不同的客户
端环境实施攻击,从而使得攻击效益尽可能的最大化.
除此之外,我们统计了不同类型的客户端环境被恶意网站攻击的数量,结果如图 14(b)所示.其中,针对
Windows XP 操作系统搭配 IE6.0 版本浏览器的环境被恶意网站攻击的数量最多,而且我们发现:操作系统和浏
览器版本越低,被攻击的数量越多.我们分析认为,是因为版本较低的浏览器和操作系统通常存在较多公开的可
被利用的漏洞.
(a) 恶意网站攻击客户端环境分布 (b) 恶意网站攻击客户端环境类型分布
Fig.13 The number and type distribution of client environments attacked by malicious websites
图 13 恶意网站攻击的客户端环境数目和类型分布
6 总 结
如今,互联网中充斥着大量的恶意 URL,攻击者利用这些恶意 URL 传播恶意软件和窃取隐私数据.本文基
于真实存活的恶意 URL 的统计,详细分析了恶意 URL 逃避手段的特点,从页面内容、JavaScript 函数参数和
Web 会话流程这 3 个方面设计了 25 个具有区分度的特征,提出了一种基于多种特征检测恶意 URL 的方法
HADMW.测试结果表明:HADMW 取得了 96.2%的精确率和 94.6%的召回率;同时,与单纯页面特征的方法和现
有检测工具相比,HADMW 取得了更好的检测效果.
在实验过程中,我们发现部分恶意 URL 采用诱导用户点击跳转的攻击方式,这些 URL 只有在用户手动点击
后,才会重定向到最终的恶意 URL.这种恶意 URL 在攻击过程中诱导用户点击页面,而本文提出的方法采用自
动化访问的方式进行检测.在接下来的工作中,我们准备增加模拟用户点击操作的功能,以及扩充更多的客户端
环境.