Page 298 - 《软件学报》2025年第8期

P. 298

赵浩钧等: 基于 BERT 与自编码器的概念漂移恶意软件分类优化 3721

下, 分类器学到的特征向量中的虚假相关性对当前分析是有益的. 因此, 即使重新构建特征向量以消除虚假相关
性, 也很难获得更好的效果. 而在 MalwareDrift 数据集上, 由于训练数据和预测数据的分布不同, 虚假相关性对分
类器的负面影响得到明显体现. 因此, 启用基于几何中位数子空间和自编码器优化对虚假相关性进行消除可以使
模型取得更好的分类性能. 此外, 自编码器的维数设置也会对性能产生影响. 编码器中间层维数的大小决定了信息
提取的质量. 过小的维数可能导致信息压缩过量, 从而发生信息丢失. 过大的维数可能导致信息提取能力不足, 无
法去除冗余信息. 通过实验结果可以看到, 当维数设置为 256 维, 356 维, 768 维 (固定) 时, 可以达到较好的分类表现.

4.5 普通场景下的分类性能实验
为了验证 MCBA 的有效性, 需要先在普通场景下进行分类性能实验. 通过与 9 个最先进的相关工作在数据
集 MalwareBazaar 上进行同条件对比实验, 得到实验结果如表 4 所示.

表 4 MCBA 与 9 种先进相关工作性能对比实验 (%)

分类性能
类别方法
准确率精准率召回率 F1值
ResNet-50 96.68 96.91 96.75 96.83
VGG-16 96.35 96.58 96.54 96.56
基于图像转换
Inception-V3 95.83 95.67 95.79 95.73
IMCFN 97.38 97.53 97.41 97.47
MAGIC 92.82 88.03 87.36 87.45
基于反汇编分析 Word2Vec+KNN 95.64 93.34 94.29 93.79
MCSC 96.80 94.97 94.51 94.70
CBOW+MLP 97.81 97.92 98.08 98.00
基于字节流分析 MalConv 95.92 96.04 96.43 96.20
MCBA 99.46 99.56 99.43 99.49

从实验结果可以看出, 在普通场景下, MCBA 的性能优于其他 9 种对比方法 1.5%–5.7%. 具体而言, 在基于图
像转换的方法中, IMCFN 在 F1 性能方面表现最好, 可以达到 97.47%. 基于反汇编分析的方法表现普遍差于其他
类别的方法 3%–11%. 基于字节流分析的方法中 CBOW+MLP 的 F1 达到了 98%, 它也是 9 个最先进工作中表现
最好的. 总体而言, 基于字节流的方法比基于图像和基于反汇编的方法表现更好. 这可能是因为基于字节流的方法
能够更好地捕捉程序的上下文语义. 基于反汇编的方法高度依赖于人工特征选择的优劣, 而在不同的分析场景下,
人工选择的特征并不总是适用, 因此分类性能会受到分析场景的影响. 此外, 基于反汇编的方法还受限于静态分析
工具的分析策略和能力. 基于图像的方法不需要专家知识进行反汇编和手动特征选择, 但将恶意样本转换为图像
可能会引入新的超参数. 例如, 使用 CNN 的方法通常将图片的宽度限制为 224, 这要求将恶意样本的二进制文件
流以 CNN 输入尺寸为宽度进行重新调整, 这在字节流之间添加了可能不存在的上下空间特征, 从而对分类产生负
面影响. 基于字节流分析的方法性能表现都较好, 其中 CBOW+MLP 的性能与 MCBA 最为接近, 这是因为它也采
用了使用学习模型理解程序语义的思想. 但由于其固定的特征数组和缺乏对上下文信息的挖掘, 在面对概念漂移
场景时, 其性能非常不稳定. 我们将在第 4.6 节中讨论这个问题.
总的来说, MCBA 在普通场景下表现优秀, 证明了 MCBA 在一般情况下的实用性. 这主要得益于 MCBA 能够
以行为为导向提取程序的深层上下文语义信息并进行转化优化.

4.6 概念漂移场景下的分类性能实验

在实际应用中分类模型时常会需要在概念漂移的场景中进行工作, 因此方法适应概念漂移场景的能力决定了
其处理新恶意样本的能力和实际应用的价值. 为了评估在概念漂移场景下, MCBA 与其他最先进相关工作的性能,
我们在 MalwareDrift 数据集上进行了对比实验.
为了模拟概念漂移场景, 实验将 MalwareDrift 的漂移前数据设置为训练集, 模拟较为旧的训练场景, 将 Malware-
Drift 的漂移后数据作为实验的测试集, 模拟在时间发生推移后现实世界中出现的新样本, 进行分类预测测试.

293 294 295 296 297 298 299 300 301 302 303