Page 316 - 《软件学报》2025年第10期
P. 316

张云婷 等: 中文对抗攻击下的        ChatGPT  鲁棒性评估                                           4713


                 全面评估了    ChatGPT  在主流中文对抗攻击方法下的鲁棒性, 还量化了              ChatGPT 鲁棒性的评价指标. 在同等的对抗
                 攻击条件下, 使用所提的       ORS  便于  ChatGPT  和其他目标模型的鲁棒性进行对比. 此外, 本文除了为输出为硬标签
                 的  LLM  设计可量化的鲁棒性评估方法外, 同时也对输出为软标签的目标模型设计了类似的鲁棒性评估方法. 在硬
                 标签中使用的攻击成功率这一指标的基础上, 对于输出包含置信度的软标签, 本文加入了以高置信度误分类的对
                 抗文本占比这一指标, 同样基于          OAD  计算其鲁棒性得分, 对输出为软标签的目标模型的鲁棒性进行更全面地评
                 估. 与此同时, 本文将     OAD  的应用范围从目标模型的鲁棒性评估扩展到对抗文本的流畅性评估中, 提出了一种基
                 于  OAD  的对抗文本流畅性打分方法         OAD-based fluency score (OFS). 不同于需要人类参与的传统方法, OFS     利用
                 了  ChatGPT  对自然语言的理解能力, 将流畅性评估过程自动化, 大大降低了人力物力.
                    本文的主要贡献如下.
                    (1) 本文面向中文文本分类任务, 引入一个新的概念               OAD, 并基于  OAD  提出对抗攻击下的       DL  模型鲁棒性打
                 分方法   ORS. ORS  基于  9  种主流对抗文本生成方法对目标模型的攻击成功率, 计算目标模型在对抗攻击下的鲁棒
                 性分数, 量化目标模型的鲁棒性. 此外, 本文分别设计面向硬标签                   DL  模型以及面向软标签      DL  模型的  ORS, 以满
                 足不同威胁模型下目标模型的鲁棒性评估需求.
                    (2) 本文将  OAD  的应用范围扩展到对抗文本流畅性评估中, 提出一种基于                  OAD  的对抗文本流畅性打分方法
                 OFS. OFS  将  ChatGPT  强大的自然语言理解能力与基于        OAD  的打分方法结合, 实现对抗文本流畅性的自动化打
                 分, 整个过程无需人工参与, 大大降低了评估成本.
                    (3) 本工作分别在物理世界中两个真实存在的情感分类和新闻分类数据集上开展对                            ChatGPT  和中文  BERT
                 模型的对抗攻击实验, 以评估         ChatGPT  在对抗攻击条件下的鲁棒性, 并将其鲁棒性与中文               BERT  进行对比. 实验
                 结果初步表明, 强大的      ChatGPT  面对中文对抗攻击仍然表现出较高程度的脆弱性, 所用的对抗攻击方法对其的最
                 高攻击成功率超过       40%. 与此同时, 基于所提的      ORS  分别计算  ChatGPT  和中文  BERT  模型的鲁棒性, 可发现前者
                 的平均鲁棒性分数比后者高约           20%, 这说明面向文本分类任务时, ChatGPT        在一定程度上拥有比中文          BERT  更强
                 的鲁棒性.
                    本文第   1  节简要回顾当今主流的词符级对抗文本生成方法. 第                2  节则为对抗文本生成过程进行形式化定义,
                 并给出适用于本工作的威胁模型. 第            3  节分别介绍我们提出的       OAD  在  LLM  鲁棒性评估以及对抗文本流畅性评
                 估中的具体应用, 详细介绍它们对应的两种打分方法                 ORS  和  OFS. 第  4  节展示本工作的实验设置及具体的实验结
                 果与分析, 并对不同提示词下的          ChatGPT  的分类结果进行了讨论. 第       5  节则简单凝练地总结全文, 并指出未来工
                 作中的研究重点.

                  1   相关工作

                    本文提出的鲁棒性评估方法           ORS  是基于多种对抗文本生成方法的攻击成功率设计的, 对抗文本生成方法在
                 其中起到了重要作用. 如前所述, 字符级和词语级的对抗文本生成方法是当前主流的文本对抗攻击方法, 可以将它
                 们统称为词符级对抗文本生成方法. 而词符级对抗文本生成方法可以形式化为组合优化问题                               [25] , 因此对于词符级
                 对抗文本生成方法来说, 其包含的较为重要的模块有两个, 分别是搜索算法和扰动方法. 下面按这两个部分依次对
                 以往面向文本分类任务的黑盒词符级对抗文本生成方法进行简要的总结回顾.
                    目前在该领域中应用较为广泛的搜索算法主要可分类为两大类, 一类为基于种群的优化算法                               [8,9] , 另一类为贪
                 心搜索算法及其变种       [3,4,10−21] . 其中, 基于种群的优化算法在文本对抗中的应用较为少见, 目前比较具有代表性的研
                 究介绍如下. Alzantot 等人  [8] 将遗传算法应用于对抗文本的生成过程中, 而他们使用遗传算法的主要目的在于设计
                 一种不依赖梯度的对抗文本生成方法. 相比于依赖梯度的白盒方法                      [23] 来说, Alzantot 等人显然更能模拟真实世界
                 中的攻击. Zang  等人  [9] 则将粒子群优化    (particle swarm optimization, PSO) 算法进行了改动, 使其适应于在离散空
                 间中的搜索方式. 通过控制变量实验的实验结果可知, 在扰动方式一样的情况下, 相比于遗传算法, 基于                              PSO  算法
                 的对抗文本生成方法对目标模型有更高的攻击成功率.
   311   312   313   314   315   316   317   318   319   320   321