Page 333 - 《软件学报》2025年第10期

P. 333

4730 软件学报 2025 年第 36 卷第 10 期

从图 4 和图 5 中可以看出, 字符级方法 A_G 和 A_SC 生成的对抗文本与原始文本的相似度在 4 种评估指标
上均展现了较低的水平, 而其他字符级方法生成的对抗文本与原始文本的相似度相对较高. 对于字符级的 C_T 方
法来说, 由于其在某些扰动比例下针对中文 BERT 模型无法生成的对抗文本, 在图 4 和图 5 中的部分扰动率下对
其值进行缺省处理, 因此使用文本相似度的评估手段并不能很好地反映出 C_T 方法生成的对抗文本的流畅性, 这
也进一步体现出使用基于 OAD 对抗文本流畅性评估方法的优越性. 词语级对抗方法 TF 生成的对抗文本在余弦
相似度以及词移距离这两个评价指标上均有较好的表现. 在编辑距离以及杰卡德系数这两个指标上, TF、A_Sy
以及 CBT 这 3 种词语级方法生成的对抗文本在文本相似性方面相差不大, 均保持在中等水平.
综上所述, 文本相似度评估能够在一定程度上反映出各方法生成的对抗文本的流畅性. 一方面, 通过文本相似
度评估所得到结论与所提的 OFS 方法计算出的每种方法生成对抗文本的流畅性得分在很大程度上具有一致性;
另一方面, 对于那些在某些扰动比例下无法生成对抗文本的方法, 文本相似度的评估很难正确反映其生成的对抗
文本的流畅性, 而本文所提的 OFS 却能对此进行较为合理的评估.
4.3 细节讨论
为了进一步讨论提示语对 ChatGPT 鲁棒性评估结果以及对抗文本流畅性评估结果的影响, 本节中对使用不
包含无法分类标签的提示语对 ChatGPT 进行提问. 对于新闻分类和情感倾向分类任务, 具体的提示语分别如下所示.
面向新闻分类任务的提示语: “帮我对给出的文本进行文本分类, 类别共有 5 种, 分别是科技、教育、财经、
社会、运动, 分别用数字 0–4 表示. 回答时请直接给出类别对应的数字, 不必说明原因.”
面向情感倾向分类任务的提示语: “请帮我确定以下文本的情感极性. 用 0 表示消极情感, 1 表示积极情感 (只
给出结果而不作解释, 且对整体文本只给出一个标签即可, 无需给出多个标签).”
使用上述提示语对 ChatGPT 进行提问, 最终的 ChatGPT 鲁棒性评估结果以及对抗文本流畅性评估结果分别
见第 4.3.1 节和第 4.3.2 节.
4.3.1 提示语对 ChatGPT 鲁棒性评估的影响
表 11 和表 12 分别展示了在提示语不包含无法分类的情况时, 在新闻分类和情感倾向性分类数据集上, 各种
攻击方法对 ChatGPT 的攻击成功率、对应的鲁棒性分数 rs 以及扩大系数 β 值. 由于需要与提示语包含无法分类
时的实验结果在同一基准上进行对比, 因此本节参考了第 3.1.3.2 节中提到的思想, 分别计算这两种情况下的扩大

系数, 选择更小的值作为最终的扩大系数 β. 以新闻数据集为例, 最终计算出的 β 值为 2, 与表 1 中的 β 值相等, 因
此直接将表 11 与表 1 进行对比即可, 情感分类数据集同理. 通过对比可知, 与包含无法分类标签的提示语相比, 当
提示语中不包含无法分类的情况时, 面对各种攻击的 ChatGPT 鲁棒性分数及平均鲁棒性分数均有明显下降, 这说
明 ChatGPT 在这种情况下更容易被对抗文本迷惑. 该实验结果证实了提示语对 ChatGPT 鲁棒性的表现有较大的
影响, 信息较多的提示语能够在一定程度上提升其面向分类任务的鲁棒性.

表 11 改变提示语的情况下面向新闻分类时各方法对 ChatGPT 的攻击成功率及鲁棒性评估

不同扰动比例 α 下的攻击成功率 (%)
方法 rs
0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50
C_T 7.92 8.19 8.06 9.17 9.03 9.44 10.00 9.44 9.58 8.20
G_R 13.06 15.00 18.61 21.11 22.08 25.14 26.39 27.50 27.78 5.63
A_SC 12.92 14.86 18.75 21.94 24.58 25.00 26.25 27.50 27.64 5.57
A_G 16.39 22.36 26.94 30.83 34.44 38.89 41.11 41.53 44.86 3.39
A_Sh 10.69 11.67 13.61 15.28 15.56 16.67 18.61 18.06 19.86 6.89
A_P 9.31 11.53 13.33 13.89 13.47 14.03 14.31 14.58 15.14 7.34
A_Sy 11.81 13.61 14.44 15.69 18.06 20.42 21.25 22.36 22.08 6.45
TF 12.36 14.31 18.89 21.53 22.50 24.86 25.28 25.97 27.64 5.70
CBT 18.61 21.39 25.00 28.19 31.39 35.56 36.39 37.36 40.42 3.90
平均鲁棒性分数 rs 5.90
扩大系数 β 2

328 329 330 331 332 333 334 335 336 337 338