Page 291 - 《软件学报》2024年第4期
P. 291
孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1869
图 4 展示了 Trap-Net 的模型结构图. Trap-Net 旨在利用集成学习的方式尽可能扩大靶标可攻击空间的大小,
在保持原目标数据集分类精度的同时加强对抗防御效力. 通过靶标可攻击空间的定义及对抗样本的探测逻辑, 对
对抗样本进行后验式探测防御. 与传统仅探测式对抗防御方法相比, Trap-Net 基于已有的神经网络模型, 无需设计
其他外部结构, 且不依靠并受限于已有的对抗样本所提供的信息.
数据集 1 …
l 1
模型 1
数据集 2 …
l 2
模型 2
否
数据集 3 … l f =Mean(l 1 , l 2 , l 3 , l 4 ) Softmax(l f ) 为陷阱输出类别 干净样本
输入数据 模型 3 l 3
是
数据集 4 … 对抗样本
l 4
模型 4
图 4 Trap-Net 模型结构图
考虑到当目标数据集过大时, 无法获取大量有效的陷阱数据集. Trap-Net 可将目标数据集自身的部分数据作
为陷阱数据集进行陷阱式网络的训练. 当得到原始 DNN 的输出结果时, 根据输出类别进行不同陷阱式集成网络
的验证. 当且仅当二者输出的分类类别相同时, 输入样本为干净样本. 这种结构的网络模型称为后验陷阱式集成网
络模型, 后验陷阱集成网络模型结构图如图 5 所示.
l
30%
模型 1
40% l 1
l f =
模型 2
Mean(l 1 , l 2 , l 3 )
l 2
50%
模型 3
l 3
输出类别=1
l
模型 输出类别= l f =
Softmax(l) … Softmax(l f )≠
Mean(l 1 , l 2 , l 3 ) Softmax(l) 否 干净样本
输入数据 输出类别=n
30%
是
模型 1
l 1
对抗样本
40%
l f =
模型 2
Mean(l 1 , l 2 , l 3 )
l 2
50%
模型 3
l 3
图 5 后验陷阱式集成网络结构图
图 5 中, {模型 1,…,模型 3}代表使用不同百分比的它类目标数据作为陷阱数据集, 用以训练该输出类别的后
验陷阱式网络. 输入数据首先经过目标神经网络“模型”后得到预测标签输出类别, 根据输出类别的数值使用不同