Page 291 - 《软件学报》2024年第4期
P. 291

孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络                                                    1869


                    图  4  展示了  Trap-Net 的模型结构图. Trap-Net 旨在利用集成学习的方式尽可能扩大靶标可攻击空间的大小,
                 在保持原目标数据集分类精度的同时加强对抗防御效力. 通过靶标可攻击空间的定义及对抗样本的探测逻辑, 对
                 对抗样本进行后验式探测防御. 与传统仅探测式对抗防御方法相比, Trap-Net 基于已有的神经网络模型, 无需设计
                 其他外部结构, 且不依靠并受限于已有的对抗样本所提供的信息.

                              数据集 1  …
                                          l 1
                                  模型 1
                              数据集 2  …

                                          l 2
                                  模型 2
                                                                                         否
                              数据集 3  …             l f =Mean(l 1 , l 2 , l 3 , l 4 )  Softmax(l f ) 为陷阱输出类别  干净样本
                     输入数据         模型 3    l 3
                                                                                是

                              数据集 4  …                                      对抗样本
                                          l 4
                                  模型 4
                                                  图 4 Trap-Net 模型结构图

                    考虑到当目标数据集过大时, 无法获取大量有效的陷阱数据集. Trap-Net 可将目标数据集自身的部分数据作
                 为陷阱数据集进行陷阱式网络的训练. 当得到原始                 DNN  的输出结果时, 根据输出类别进行不同陷阱式集成网络
                 的验证. 当且仅当二者输出的分类类别相同时, 输入样本为干净样本. 这种结构的网络模型称为后验陷阱式集成网
                 络模型, 后验陷阱集成网络模型结构图如图              5  所示.

                                                                  l
                                                      30%
                                                     模型 1
                                                      40%  l 1
                                                                     l f =
                                                     模型 2
                                                                  Mean(l 1 , l 2 , l 3 )
                                                           l 2
                                                      50%
                                                     模型 3
                                                           l 3
                                              输出类别=1
                                 l
                           模型        输出类别=                            l f =
                                      Softmax(l)       …                          Softmax(l f )≠
                                                                   Mean(l 1 , l 2 , l 3 )  Softmax(l)  否  干净样本
                 输入数据                         输出类别=n
                                                      30%
                                                                                    是
                                                     模型 1
                                                            l 1
                                                                                   对抗样本
                                                      40%
                                                                      l f =
                                                     模型 2
                                                                   Mean(l 1 , l 2 , l 3 )
                                                            l 2
                                                      50%
                                                     模型 3
                                                            l 3
                                               图 5 后验陷阱式集成网络结构图

                    图  5  中, {模型  1,…,模型  3}代表使用不同百分比的它类目标数据作为陷阱数据集, 用以训练该输出类别的后
                 验陷阱式网络. 输入数据首先经过目标神经网络“模型”后得到预测标签输出类别, 根据输出类别的数值使用不同
   286   287   288   289   290   291   292   293   294   295   296