Page 319 - 《软件学报》2025年第10期
P. 319

4716                                                      软件学报  2025  年第  36  卷第  10  期


                 BERT  模型作为目标模型的影子模型进行攻击. 随后使用针对影子模型生成的对抗文本攻击目标模型. 实验结果
                 表明, 使用这种方法能够以一定的攻击成功率攻击目标模型. 这既说明了输出为硬标签的目标模型也有被攻击的
                 可能, 也同时说明了对抗文本具有一定的可迁移性.
                    然而, 以上研究均没有以当前流行的            LLM  作为目标模型, 探究其在对抗攻击下的鲁棒性. 本文在前人工作的
                 基础上, 以  ChatGPT  为例, 探究其在不同的中文对抗攻击条件下的鲁棒性. 与此同时, 本工作设计了可量化的鲁棒
                 性评价指标    ORS, 并使用   ORS  计算  ChatGPT  面对各种中文对抗攻击时的鲁棒性分数. 借由这些工作, 本文试图填
                 补对抗文本生成领域在        LLM  方面的研究工作.

                  2   问题定义

                  2.1   对抗文本形式化表示
                    面向文本分类任务的对抗文本定义可形式化表述如下. 给定一个文本分类数据集  ,                                      n 篇文档,
                                                                                    X X 中总共包含
                                                                                   Y Y 中共包含
                 即  X = {x 1 ,x 2 ,...,x n }. 其中, 每篇文档均由词向量表示. 这些文档所对应的标签集合为  ,               m 个标签, 标
                 签通常用标量表示, 即       Y = {y 1 ,y 2 ,...,y m }. 现有一个深度学习分类器   f : X → Y 是从  X 到  Y 的映射. 对于  X 中的任
                                                                                          x i  中引入一个人类
                 意一篇文档, 都有且仅有       Y 中的一个标签与其对应. 对于         X 中的一篇文档     x i (i = 1,...,n), 现向
                                                            ′
                                                                       ′
                                                           x
                 难以察觉的微小扰动       ∆x i , 可以得到一个扰动后的文本  . 扰动后文本         x  可形式化表示如下:
                                                            i          i

                                                         ′
                                                        x = x i +∆x i                                 (1)
                                                         i
                                      ′                               ′  x i  的对抗文本. 此时需要引入一个计算文
                    若加入扰动后的文本        x  能够触发目标模型产生错误分类, 则称           x  是
                                      i                               i
                                             ′
                 本相似度差异的函数       g 来衡量  x i  与  x  的文本相似度. 对抗文本通常需满足如下条件:

                                             i
                                                                 (
                                                       ( )
                                                                     )
                                                f (x i ) , f x ,  s.t.  g x i , x ⩽ ε                 (2)
                                                                     ′
                                                         ′
                                                         i           i
                 其中,   ε ∈ R 且  ε 是   x i  和  x  相似度差异的上限.
                                    ′
                                    i
                    公式  (2) 中的形式化描述即为当前大部分工作            [3,10,12−16,21] 使用的面向文本分类任务的对抗文本的形式化定义.
                 本节在此基础上, 进一步考虑将对抗文本自身的流畅性作为约束条件. 对于对抗文本的原始定义来说, “人类难以
                 察觉”这一约束条件有两层含义. 第          1  层即为当前大部分工作在形式化表述时均考虑到的文本相似性, 而文本相似
                 性的评估对象为两个, 即原始文本和对抗文本. 本节除了考虑上述第                     1  层含义, 也考虑了第    2  层含义, 即对抗文本
                 自身的流畅性. 流畅性的评估对象仅有对抗文本自身, 本节将其考虑进约束条件的原因有以下两点. 一方面, 在物
                 理世界中, 人类阅读对抗文本时往往仅能看到对抗文本而无法看到原始文本. 对抗文本是否能被顺利阅读也是人
                 类是否能觉察到对抗文本的关键因素, 因此将对抗文本自身的流畅性作为约束条件也同样有意义. 另一方面, 虽然
                 当前工作均未将对抗文本的流畅性作为对抗文本定义中形式化表述的约束条件, 但许多工作均通过人类评估的方
                 式评估了对抗文本的流畅性          [8−12,14−17,21] . 基于上述两点, 本节将对抗文本自身的流畅性作为约束条件纳入面向文本
                 分类的对抗文本定义的形式化表述中, 具体作如下叙述. 现引入一个对抗文本的流畅性评估函数                              h, 对抗文本的流
                 畅性需满足如下条件:

                                                          ( )
                                                         h x ⩾ φ                                      (3)
                                                            ′
                                                            i
                 其中,   φ 是对抗文本  x  所允许的流畅性分数下限.
                                 ′
                                 i
                    除了流畅性约束以外, 本节还考虑了对抗文本被目标模型误分类的置信度这一约束. 当前很少有文本对抗领
                 域的工作关注这一约束, 但基于图像对抗样本领域的文献                   [2] 中提及了许多对抗文本能以高置信度被目标模型误
                 分类, 本节也将该因素考虑进面向文本分类的对抗文本定义的形式化描述中, 具体表述如下. 引入一个置信度函数
                                       x  被目标模型误分类时的置信度. 该置信度需要满足如下条件:
                                        ′
                 e, 该函数能够输出对抗文本         i

                                                          ( )
                                                         e x ⩾ θ                                      (4)
                                                            ′
                                                            i
                 其中,   θ 是对抗文本  x  被目标模型误分类时所允许的置信度下限.
                                 ′
                                 i
                    当目标模型的输出为不包含置信度信息的硬标签时, 则无需考虑置信度的约束. 在这种情况下, 结合公式                                 (2)
   314   315   316   317   318   319   320   321   322   323   324