Page 301 - 《软件学报》2025年第7期
P. 301

3222                                                       软件学报  2025  年第  36  卷第  7  期


                 恶意软件的检测平均        F1  值为  79.0%, 与  WMN  相比提高  18.1%; DroidSA  对  2015–2018  年的恶意软件的检测平均
                 F1  值为  86.5%, 与  DOH  相比提高  9.5%.
                    AOH  和  WMN  在聚类时都没有考虑       API 方法名, 因此这两种方法衰减速度较快, 难以有效检测进化后的恶意
                 软件. 但  WMN  使用  BERT  对类名和权限等特征中的语义信息进行挖掘, 与              AOH  相比衰减速度较慢. 本文提出的
                 聚类方法   DOH  充分利用方法名称中蕴含的语义信息, 能有效检测进化后的恶意软件, 与                      AOH  和  WMN  相比有大
                 幅的提升. 在使用反映       API 上下文信息的聚类中心调用对作为特征向量               (DroidSA) 时, 对进化后恶意软件的检测
                 能力进一步增强. 这说明方法名对          API 聚类十分重要, 能有效提高分类器对观念迁移样本的检测能力.

                 6.5   调用图优化对检测性能的影响
                    为评估调用图优化对        DroidSA  衰减速度的影响, 设计了      Scenario A (图  8(a)) 和  Scenario B (图  8(b)) 两个实验
                 场景并进行十折交叉验证. DroidSA       在缺少调用图优化时的检测效果如图              8  所示.

                         110                                   110
                         100                                   100
                          90
                                                                90
                          80
                                                                80
                        F1 (%)  70                            F1 (%)  70
                          60
                                                                60
                          50
                                                                50
                          40
                                 With call graph optimization           With call graph optimization
                          30                                    40
                                 Without call graph optimization        Without call graph optimization
                          20                                    30
                           训练集   2014  2015  2016  2017  2018    训练集     2015   2016   2017    2018
                                          年份                                    年份
                                       (a) Scenario A                        (b) Scenario B
                                              图 8 缺少调用图优化时的检测性能

                    由图  8  可知, 调用图优化对     DroidSA  检测恶意软件的能力提升有限, 但能显著提高             DroidSA  对观念迁移样本
                 的检测能力. 在    Scenario A  中, 未使用调用图优化的     DroidSA  对  2014–2018  年的恶意软件的检测平均      F1  值为
                 52%, 而在使用调用图优化后, 检测平均          F1  值为  82.6%, 提升幅度为  59%; 在  Scenario B  中, 未使用调用图优化的
                 DroidSA  对  2015–2018  年的恶意软件的检测平均    F1  值为  68.2%, 在使用调用图优化后, 检测平均        F1  值为  86.7%,
                 提升幅度为    27%. 表明调用图优化能够显著提升分类器对进化后恶意软件的检测能力.
                    第  6.3  节的观念迁移样本检测实验结果表明, APIGraph         削弱了   MaMaDroid  对观念迁移样本的检测能力. 其原
                 因是缺失调用图优化过程, 函数调用图中大量未知函数导致                    AE-MaMaDroid  难以提取软件的关键特征. 与未知函
                 数相比, 包调用对和聚类中心调用对能更好反映软件的行为逻辑, 能使检测方法有效适应安卓框架的不断变化. 因
                 此, 包调用对和聚类中心调用对是恶意软件检测的关键特征. MaMaDroid、AE-MaMaDroid                    和  DroidSA  的特征向
                 量中关键特征的数量和占比如图           9  所示.
                    图  9  中, MaMaDroid  平均每年只能提取到    317  种包调用对, 即关键特征占特征总数的          41.4%. 由于缺失调用图
                 优化过程, MaMaDroid  在处理未知函数时根据代码保护机制              [30] 将其抽象为自定义函数或模糊函数, 导致特征向量
                 中出现大量未知函数与包组成的调用对, 这些非关键特征约占特征总数的                        60%.
                    AE-MaMaDroid  将函数调用对中的       API 抽象为聚类中心, 其余步骤与         MaMaDroid  相同. 如图  9  所示, 经过
                 APIGraph “增强”后  AE-MaMaDroid  平均每年只能提取到     372  种聚类中心调用对, 占特征总数的         7.8%. 剩余  92.2%
                 的特征是聚类中心与未知函数的调用. 特征空间中表征软件行为逻辑的关键特征数量大幅减少, 导致                                  APIGraph
                 反而使   MaMaDroid  的衰减速度加快.
   296   297   298   299   300   301   302   303   304   305   306