Page 286 - 《软件学报》2025年第8期
P. 286
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(8):3709−3725 [doi: 10.13328/j.cnki.jos.007253] [CSTR: 32375.14.jos.007253] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于 BERT 与自编码器的概念漂移恶意软件分类优化
赵浩钧 1,2,3,5 , 邹德清 1,2,3,5 , 薛文杰 1,2,3,5 , 吴月明 6 , 金 海 1,2,4,7
1
(大数据技术与系统国家地方联合工程研究中心, 湖北 武汉 430074)
2
(服务计算技术与系统教育部重点实验室, 湖北 武汉 430074)
3
(大数据安全湖北省工程研究中心, 湖北 武汉 430074)
4
(集群与网格计算湖北省重点实验室, 湖北 武汉 430074)
5
(华中科技大学 网络空间安全学院, 湖北 武汉 430074)
6
(School of Computing and Data Science, Nanyang Technological University, Singapore 639798, Singapore)
7
(华中科技大学 计算机科学与技术学院, 湖北 武汉 430074)
通信作者: 邹德清, E-mail: deqingzou@hust.edu.cn
摘 要: 软件概念漂移指同类型软件的软件结构和组成成分会随着时间的推移而改变. 在恶意软件分类领域, 发生
概念漂移意味着同一家族的恶意样本的结构和组成特征会随时间发生变化, 这会导致固定模式的恶意软件分类算
法的性能会随时间推移而发生下降. 现有的恶意软件静态分类研究方法在面临概念漂移场景时都会有显著的性能
下降, 因此难以满足实际应用的需求. 针对这一问题, 鉴于自然语言理解领域与二进制程序字节流分析领域的共性,
基于 BERT 和自定义的自编码器架构提出一种高精度、鲁棒的恶意软件分类方法. 该方法首先通过反汇编分析提
取执行导向的恶意软件操作码序列, 减少冗余信息; 然后使用 BERT 理解序列的上下文语义并进行向量嵌入, 有效
地理解恶意软件的深层程序语义; 再通过几何中位数子空间投影和瓶颈自编码器进行任务相关的有效特征筛选;
最后通过全连接层构成的分类器输出分类结果. 在普通场景和概念漂移场景中, 通过与最先进的 9 种恶意软件分
类方法进行对比实验验证所提方法的实际有效性. 实验结果显示: 所提方法在普通场景下的分类 F1 值达到
99.49%, 高于所有对比方法, 且在概念漂移场景中的分类 F1 值比所有对比方法提高 10.78%–43.71%.
关键词: 恶意软件静态分析; 概念漂移; 鲁棒性优化
中图法分类号: TP311
中文引用格式: 赵浩钧, 邹德清, 薛文杰, 吴月明, 金海. 基于BERT与自编码器的概念漂移恶意软件分类优化. 软件学报, 2025,
36(8): 3709–3725. http://www.jos.org.cn/1000-9825/7253.htm
英文引用格式: Zhao HJ, Zou DQ, Xue WJ, Wu YM, Jin H. Optimization of Concept Drift Malware Classification Based on BERT and
Autoencoder. Ruan Jian Xue Bao/Journal of Software, 2025, 36(8): 3709–3725 (in Chinese). http://www.jos.org.cn/1000-9825/7253.
htm
Optimization of Concept Drift Malware Classification Based on BERT and Autoencoder
6
ZHAO Hao-Jun 1,2,3,5 , ZOU De-Qing 1,2,3,5 , XUE Wen-Jie 1,2,3,5 , WU Yue-Ming , JIN Hai 1,2,4,7
1
(National Engineering Research Center for Big Data Technology and System, Wuhan 430074, China)
2
(Key Laboratory of Services Computing Technology and System, Ministry of Education, Wuhan 430074, China)
3
(Hubei Engineering Research Center on Big Data Security, Wuhan 430074, China)
4
(Hubei Key Laboratory of Cluster and Grid Computing, Wuhan 430074, China)
5
(School of Cyber Science and Engineering, Huazhong University of Science and Technology, Wuhan 430074, China)
* 基金项目: 国家自然科学基金 (62172168)
收稿时间: 2023-12-09; 修改时间: 2024-04-28; 采用时间: 2024-07-13; jos 在线出版时间: 2024-12-04
CNKI 网络首发时间: 2024-12-04

