Page 289 - 《软件学报》2024年第4期

P. 289

孙家泽等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1867

可攻击空间分别定义为邻近可攻击空间和背景可攻击空间.
定义 2 (邻近可攻击空间). 邻近可攻击空间位于目标数据流形所处的特征敏感空间之中. 图 2 展示了可攻击
空间与 DNN 特征空间的示意图. 邻近可攻击空间位于特征敏感空间之内, 其穿插在虚线和实线所示的不同数据
类别流形之间的高维断层空间之中, 是有目标对抗样本所存在的特征空间.

训练数据集流形边界
B 类模型敏感特征空间流形边界

模型特征搜索空间
邻近

A 类可攻击区域

对抗背景可攻击区域

垃圾背景可攻击区域

图 2 可攻击空间示意图

定义 3 (背景可攻击空间). 背景可攻击空间位于整体目标数据流形之外的广袤特征空间之中. 根据无目标攻
击区域和垃圾图像区域可将背景可攻击空间细分为对抗背景可攻击空间和垃圾背景可攻击空间. 这两个区域分别
代表无目标对抗样本的存在区域和垃圾图片的存在区域. 图 2 所示的训练数据集流形边界和模型敏感特征空间流
形边界之间的对抗背景可攻击空间更贴近训练数据流形空间, 而模型敏感特征空间流形边界之外的特征空间被称
为垃圾背景可攻击空间.
总体上, 可攻击空间的概念图如图 2 所示. 图中小圆代表 A 类数据, 三角形代表 B 类数据. 中心实线为真实决
策边界, 中心虚线为模型拟合的决策边界. 邻近可攻击空间指两个不同类别的数据流形之间真实决策边界和模型
拟合的决策边界为界所形成的高维特征空间. 图中点划线代表的是因模型数据预处理所导致的数据特征敏感空
间. 其中, 虚线所代表的训练数据集流形边界是模型特征敏感空间中的一部分. 而对抗背景可攻击空间则存在于这
两个边界之间. 垃圾背景可攻击空间因不符合模型数据预处理规则, 存在于特征敏感空间之外.
邻近可攻击空间和背景可攻击空间是平滑区域和对抗区域所混杂的特征空间. 平滑区域符合计算机视觉的传
统平滑假设, 即数据样本增添微小扰动或噪声之后, 网络模型仍能以正确的类别输出. 而对抗区域是暗藏对抗样本
的特殊特征空间, 需要以特定的攻击算法作为钥匙进行搜寻.
2.2 陷阱式集成对抗防御网络

传统训练模式中, DNN 没有被赋予对输入样本怀疑的权力以及针对对抗样本的判断逻辑. 所以 DNN 只能凭
借已有的数据特征信息为高维特征空间中的每个点赋予不同类别对应的输出概率. 而可攻击空间的关键在于其所
处的特征空间未被训练数据所直接定义. 这些未被训练数据所直接影响的可攻击空间无法在训练数据的帮助下对
特征空间进行目标类别的分类和标记, 而这正为对抗样本的存在提供了基础条件. 如果赋予 DNN 对输入数据怀

284 285 286 287 288 289 290 291 292 293 294