Page 316 - 《软件学报》2025年第10期
P. 316
张云婷 等: 中文对抗攻击下的 ChatGPT 鲁棒性评估 4713
全面评估了 ChatGPT 在主流中文对抗攻击方法下的鲁棒性, 还量化了 ChatGPT 鲁棒性的评价指标. 在同等的对抗
攻击条件下, 使用所提的 ORS 便于 ChatGPT 和其他目标模型的鲁棒性进行对比. 此外, 本文除了为输出为硬标签
的 LLM 设计可量化的鲁棒性评估方法外, 同时也对输出为软标签的目标模型设计了类似的鲁棒性评估方法. 在硬
标签中使用的攻击成功率这一指标的基础上, 对于输出包含置信度的软标签, 本文加入了以高置信度误分类的对
抗文本占比这一指标, 同样基于 OAD 计算其鲁棒性得分, 对输出为软标签的目标模型的鲁棒性进行更全面地评
估. 与此同时, 本文将 OAD 的应用范围从目标模型的鲁棒性评估扩展到对抗文本的流畅性评估中, 提出了一种基
于 OAD 的对抗文本流畅性打分方法 OAD-based fluency score (OFS). 不同于需要人类参与的传统方法, OFS 利用
了 ChatGPT 对自然语言的理解能力, 将流畅性评估过程自动化, 大大降低了人力物力.
本文的主要贡献如下.
(1) 本文面向中文文本分类任务, 引入一个新的概念 OAD, 并基于 OAD 提出对抗攻击下的 DL 模型鲁棒性打
分方法 ORS. ORS 基于 9 种主流对抗文本生成方法对目标模型的攻击成功率, 计算目标模型在对抗攻击下的鲁棒
性分数, 量化目标模型的鲁棒性. 此外, 本文分别设计面向硬标签 DL 模型以及面向软标签 DL 模型的 ORS, 以满
足不同威胁模型下目标模型的鲁棒性评估需求.
(2) 本文将 OAD 的应用范围扩展到对抗文本流畅性评估中, 提出一种基于 OAD 的对抗文本流畅性打分方法
OFS. OFS 将 ChatGPT 强大的自然语言理解能力与基于 OAD 的打分方法结合, 实现对抗文本流畅性的自动化打
分, 整个过程无需人工参与, 大大降低了评估成本.
(3) 本工作分别在物理世界中两个真实存在的情感分类和新闻分类数据集上开展对 ChatGPT 和中文 BERT
模型的对抗攻击实验, 以评估 ChatGPT 在对抗攻击条件下的鲁棒性, 并将其鲁棒性与中文 BERT 进行对比. 实验
结果初步表明, 强大的 ChatGPT 面对中文对抗攻击仍然表现出较高程度的脆弱性, 所用的对抗攻击方法对其的最
高攻击成功率超过 40%. 与此同时, 基于所提的 ORS 分别计算 ChatGPT 和中文 BERT 模型的鲁棒性, 可发现前者
的平均鲁棒性分数比后者高约 20%, 这说明面向文本分类任务时, ChatGPT 在一定程度上拥有比中文 BERT 更强
的鲁棒性.
本文第 1 节简要回顾当今主流的词符级对抗文本生成方法. 第 2 节则为对抗文本生成过程进行形式化定义,
并给出适用于本工作的威胁模型. 第 3 节分别介绍我们提出的 OAD 在 LLM 鲁棒性评估以及对抗文本流畅性评
估中的具体应用, 详细介绍它们对应的两种打分方法 ORS 和 OFS. 第 4 节展示本工作的实验设置及具体的实验结
果与分析, 并对不同提示词下的 ChatGPT 的分类结果进行了讨论. 第 5 节则简单凝练地总结全文, 并指出未来工
作中的研究重点.
1 相关工作
本文提出的鲁棒性评估方法 ORS 是基于多种对抗文本生成方法的攻击成功率设计的, 对抗文本生成方法在
其中起到了重要作用. 如前所述, 字符级和词语级的对抗文本生成方法是当前主流的文本对抗攻击方法, 可以将它
们统称为词符级对抗文本生成方法. 而词符级对抗文本生成方法可以形式化为组合优化问题 [25] , 因此对于词符级
对抗文本生成方法来说, 其包含的较为重要的模块有两个, 分别是搜索算法和扰动方法. 下面按这两个部分依次对
以往面向文本分类任务的黑盒词符级对抗文本生成方法进行简要的总结回顾.
目前在该领域中应用较为广泛的搜索算法主要可分类为两大类, 一类为基于种群的优化算法 [8,9] , 另一类为贪
心搜索算法及其变种 [3,4,10−21] . 其中, 基于种群的优化算法在文本对抗中的应用较为少见, 目前比较具有代表性的研
究介绍如下. Alzantot 等人 [8] 将遗传算法应用于对抗文本的生成过程中, 而他们使用遗传算法的主要目的在于设计
一种不依赖梯度的对抗文本生成方法. 相比于依赖梯度的白盒方法 [23] 来说, Alzantot 等人显然更能模拟真实世界
中的攻击. Zang 等人 [9] 则将粒子群优化 (particle swarm optimization, PSO) 算法进行了改动, 使其适应于在离散空
间中的搜索方式. 通过控制变量实验的实验结果可知, 在扰动方式一样的情况下, 相比于遗传算法, 基于 PSO 算法
的对抗文本生成方法对目标模型有更高的攻击成功率.

