Page 307 - 《软件学报》2021年第9期
P. 307

吴森焱  等:融合多种特征的恶意 URL 检测方法                                                        2931


         相似功能的动态检测工具进行比较,选择了开源项目 Capture-HPC                 [21] 和 PhoneyC [22] .我们在 2019 年 2 月获取和
         搭建了 Capture-HPC 和 PhoneyC,并将数据集 2 分别使用这两个开源项目进行测试,并将检测结果与 HADMW
         的结果进行对比,如表 11 所示:Capture-HPC 的 F 值为 0.79,PhoneyC 的 F 值为 0.87.可以看到,HADMW 比
         Capture-HPC 和 PhoneyC 拥有更好的检测效果.在时间开销方面,HADMW 检测每个恶意网站的平均时间为
         8.9s,而 Capture-HPC 和 PhoneyC 的平均时间为 14.7s 和 17.2s.实验结果表明:HADMW 可以检测出更多的恶意
         URL,检测效率也优于 Capture-HPC 和 PhoneyC.
             同时,由于 HADMW 使用了动态特征获取,我们也对比了其特征获取时间与静态方法的对比.HADMW 特
         征获取的时间包括获取页面源代码和动态执行源代码,与静态方法相比,多了动态执行源代码的过程.我们使用
         改写扩展 Thug,对 1 000 条 URL 上进行了测试和观察,动态方法检测每个恶意 URL 的平均时间为 8.9s,其中,获
         取页面源代码平均需要 3.84s,动态执行页面源代码平均需要 5.06s.相比于获取页面源代码所需要的时间,动态
         方法增加了执行页面源代码的时间开销,增加了约 1.3 倍的特征获取时间.
                                   Table 11    Comparison with open source tools
                                          表 11   与两款开源工具对比
                                       精确率(%)   召回率(%)   误判率(%)   漏判率(%)   F 值
                             HADMW       96.2     94.6      3.8      5.4   0.95
                            Capture-HPC  84.6     75.4     13.7     24.6   0.79
                             PhoneyC     88.8     85.6     10.8     14.4   0.87

             (2)  与安全软件比较
             根据 AV-TEST 组织发布的在 2018 年用户最受欢迎的安全软件的测试报告                   [23] ,我们选择了两款得分最高的
         安全软件 Bitdefender 和 ESET,使用最新发布的版本对数据集 2 进行测试,结果见表 12.Bitdefender 的 F 值为
         0.92,ESET 的 F 值为 0.93.可以看到,HADMW 比这两款安全软件检测效果更好.我们分析认为,原因是: HADMW
         在特征的选取方面针对恶意 URL 的逃避检测手段,从页面源代码、JavaScript 关键函数参数以及整体攻击会话
         流程方面选取特征对恶意 URL 进行检测;相比之下,安全软件的扫描检测通常是基于页面中恶意代码进行检
         测.综合比较表明,HADMW 的检测效果优于现有安全软件.

                                 Table 12    Comparison with other security software
                                          表 12   与其他安全软件对比
                                      精确率(%)   召回率(%)    误判率(%)   漏判率(%)   F 值
                             HADMW      96.2     94.6      3.8      5.4    0.95
                             Bitdefender  91.8   93.3      8.3      6.7    0.92
                              ESET      92.7     93.6      7.3      6.4    0.93
             (3)  与近期研究比较
             文献[15,17]结合了动静态两方面的特征,都对恶意网页检测做了不错的尝试,但我们在公开资料中均未找
         到其方法对应的实现或源代码,也没有找到其公开的数据集.为了能够较清晰地对比结果,我们将文献[15,17]中
         提取的特征、测试数据集以及文献自身公布的测试结果展示在表 13 中.可以看出:HADMW 测试数据集中的样
         本来源和数量更多,在准确率、召回率方面都有不错的表现.

                                Table 13    Comparison with other existing approaches
                                          表 13   与现有检测方法对比
                                             测试数据集(数目/来源/时间)                 测试结果
                 方法         特征选取
                                          正常样本          恶意样本          准确率(%)   召回率(%)   F 值
                        从页面内容、JavaScript   8697/   8928/HpHosts,ZeusTracker,
                        函数参数和 Web 会话       Alexa/    Malwaredomainlist,
               HADMW                                                    96.2     94.6   0.95
                        流程这 3 个方面选取       2016.01-   UrlQuery,Malc0de/
                        25 个特征组成特征向量      2019.02     2016.01-2019.02
   302   303   304   305   306   307   308   309   310   311   312