Page 306 - 《软件学报》2021年第9期
P. 306
2930 Journal of Software 软件学报 Vol.32, No.9, September 2021
看出,采用全部特征组合可以有效地检测出使用逃避手段的恶意网站.同时,从表中测试结果可以看出:将页面
特征与 Web 会话流程特征相结合一起时,分类器的检测效果得到了提高.
如图 12 所示为不同特征组合的 ROC 曲线,从图中可以看出:相对于其他 4 个特征组合,使用全部特征的组
合曲线更靠近坐标轴的左上方,意味着它能够在保证较低假阳率的情况下,有更高的真阳率.这在 AUC 值上更
加明显,使用全部特征的组合模型的 AUC 值达到 0.98.同时,从图中可以看出:页面特征与 Web 会话流程特征相
结合时,提高了分类器的检测效果.
Fig.12 ROC curve of different feature combination methods
图 12 不同特征组合的 ROC 曲线
在使用随机森林算法的进行学习过程中,信息增益通常被用作选择特征的重要指标.信息增益是指特征为
分类器提供信息的多少,即:在确定某一条件下,信息的不确定性减少的程度.当特征为分类器模型提供的信息
量越多,则表示该特征在分类器中更加重要,相应地,它的信息增益越大.我们计算特征在随机森林算法的学习
过程中的信息增益,表 10 显示了排在前 10 位的最高信息增益的特征列表.从表中可以看出:前 10 位最高信息增
益的特征中,包含了提出的 3 大类特征,其中,我们提出的新的页面特征和 Web 会话流程特征的信息增益较大,
对准确分类的贡献度更大.
Table 10 Top 10 features with the highest information gain
表 10 前 10 位最高信息增益的特征
特征名称 信息增益
会话响应特殊资源文件的总数量 0.329
会话请求错误响应码的总数量 0.308
客户端环境探测代码的总数量 0.289
会话重定向链的最大长度 0.265
控件标签的总数量 0.255
VBScript 代码敏感字符串的总数量 0.224
会话过程中 URL 的平均长度 0.207
动态执行函数参数的平均长度 0.181
会话使用 HTTPS 协议的总数量 0.167
动态生成函数参数含敏感字符串的总数量 0.153
5.5 测试结果对比
(1) 与开源项目比较
我们将提出的检测方法命名为 HADMW.HADMW 在检测过程中动态执行页面源代码,因此将 HADMW 与