Page 290 - 《软件学报》2025年第8期

P. 290

赵浩钧等: 基于 BERT 与自编码器的概念漂移恶意软件分类优化 3713

本处理模型. Transformer 架构是一种神经网络, 能够并行处理输入序列, 在处理长文本序列的 NLP 任务中表现出
优秀的性能. 相较于传统的语言模型从左至右顺序处理自然语言, BERT 采用了双向编码的方法, 能够同时利用左
右两侧的上下文信息, 这使得模型能够考虑句子中蕴含的上下文信息, 更好地理解文本语义和关系. BERT 通过两
个无监督学习任务在大型文本语料库上进行预训练: 遮盖 (masked language model, MLM) 和下一句预测 (next
sentence prediction, NSP). 在 MLM 任务中, 部分输入被随机屏蔽, 模型经过训练以根据周围上下文预测屏蔽标记.
在 NSP 任务中, 模型通过训练来预测给定文档中的两个句子是否连续. 此外, BERT 也可以直接用于对单个句子进
行向量嵌入, 并输出代表句子整体特征的 [CLS] 向量. 预训练后, BERT 模型可以通过微调来适应各种下游任务,
例如情感分析、文本分类、句子关系判断和命名实体识别等. 得益于高质量的上下文词嵌入和对文本上下文含义
的理解, BERT 在许多 NLP 基准测试上都取得了最佳性能的表现, 并广泛应用于工业界和学术界的各种 NLP 任务.
在恶意软件分析中, 鉴于二进制文件的字节流序列与自然语言文本序列之间的相似性, 许多工作将二进制流
转化为文本进行分析 (例如, 将每个恶意软件二进制文件视为 256 个单词 (0x00–0xFF) 的语料库) 并使用 NLP 模
型进行处理.

2.2 瓶颈自编码器 (bottleneck autoencoder)
瓶颈自编码器是一种用于特征提取或数据压缩的无监督神经网络模型. 它是自编码器的一种变体, 其核心思
想是通过将输入数据压缩到一个较低维度的编码空间, 然后再将其解码回原始数据空间, 从而学习到数据的紧凑
表示, 捕获输入数据的关键特征.
瓶颈自编码器包含一个编码器和一个解码器, 通过多层神经网络构建. 编码器负责将输入数据映射到低维的
瓶颈层, 该层称为瓶颈特征或隐藏特征. 通过限制瓶颈层的维度, 瓶颈自编码器迫使模型提取输入数据中最重要和
最相关的特征, 并且通过解码器的重构过程尽量还原原始数据. 瓶颈自编码器的训练过程即最小化原始数据与重
构数据的重构误差的过程, 这样的压缩和解压缩过程有助于模型去除输入数据中的噪声和冗余信息, 提高数据表
示的紧凑性和鲁棒性.
瓶颈自编码器在许多领域中具有广泛应用, 包括特征学习与提取、数据降维、异常检测等. 通过学习到紧凑
的数据表示, 瓶颈自编码器能够减少数据的维度, 去除冗余信息, 提取主要特征, 并在一定程度上提高模型的鲁棒
性和泛化能力, 从而为后续的分类、聚类和生成等任务提供更好的输入.

2.3 几何中位数子空间 (geometric median subspace)
几何中位数子空间是一种用于估计数据样本所在子空间的方法. 它是多元数据分析中的一种技术, 旨在找到
一个子空间, 使得样本到该子空间上的投影之和最小. 在高维数据处理中, 通过寻找高维数据对应的低维子空间,
可以获得数据的变化方向和潜在相关性结构, 从而实现降维、特征提取或聚类等任务目标.
具体而言, 几何中位数子空间的目标是寻找一个 k 维子空间, 使得所有样本在该子空间的投影到其他样本投
影的欧氏距离之和最小. 这表明样本在该子空间上的分散程度最小, 因此可以表达最密集的核心信息.
几何中位数子空间在降维、异常检测、子空间聚类等领域具有广泛的应用. 它可以用于发现数据的主要变化
模式、挖掘关联性结构以及提取具有代表性的子空间特征. 这种方法对于高维数据的分析具有重要意义, 可以帮
助揭示数据的内在结构和重要特征.

2.4 概念漂移 (concept drift)
在预测分析和机器学习中, 概念漂移是指目标变量的统计特性随着时间的推移以不可预见的方式变化的现
象 [31] . 在恶意软件分类任务中概念漂移的表现是, 同家族的恶意样本会随着时间的推移而发生程序组成和结构上
的变化, 使得同家族新出现的样本与之前的样本特征发生改变, 从而使先前训练的分类模型无法准确地将新出现
的恶意软件样本进行分类, 影响分类模型的性能. 概念漂移是机器学习和 Windows 恶意软件分类任务中一个现实
且关键的问题. 在实际应用中, 恶意软件分类任务经常会处于概念漂移场景中, 现有的分类模型的性能会受到概念
漂移的影响而不能满足应用的需求.

285 286 287 288 289 290 291 292 293 294 295