Page 328 - 《软件学报》2025年第10期

P. 328

张云婷等: 中文对抗攻击下的 ChatGPT 鲁棒性评估 4725

之相同的结论. 将表 1、表 2 与表 3、表 4 对比可知, 前者的 β 大于后者的 β 值. 这说明面向新闻分类任务时两模
型的鲁棒性优于面向情感倾向分类任务时的鲁棒性.

表 3 面向情感分类时各方法对 ChatGPT 的攻击成功率及鲁棒性评估

不同扰动比例 α 下攻击成功率 (%)
方法 rs
0.01 0.03 0.05 0.10 0.15 0.20 0.25 0.30 0.40
C_T 0.35 0.35 0.46 0.23 0.69 0.69 0.81 0.46 0.69 9.95
G_R 1.62 1.96 2.89 3.23 3.23 4.16 3.35 3.58 3.93 9.69
A_SC 2.66 4.16 3.70 4.97 5.89 5.66 5.31 4.97 5.20 9.53
A_G 2.89 3.46 4.62 8.31 9.70 9.70 10.51 8.66 8.31 9.26
A_Sh 1.73 1.50 2.54 2.89 3.81 4.16 3.23 3.81 4.16 9.69
A_P 1.62 1.73 2.08 3.46 3.35 3.70 3.70 4.04 3.35 9.70
A_Sy 2.19 3.23 3.12 4.62 6.24 7.39 9.12 10.28 11.20 9.36
TF 6.24 7.62 8.78 15.59 20.44 24.71 27.02 27.48 28.41 8.15
CBT 11.32 13.86 14.9 25.64 32.22 35.57 39.38 42.03 42.38 7.14
平均鲁棒性分数 rs 9.16
扩大系数 β 1

表 4 面向情感分类时各方法对中文 BERT 的攻击成功率及鲁棒性评估 (硬标签)

不同扰动比例 α 下的攻击成功率 (%)
方法 rs
0.01 0.03 0.05 0.10 0.15 0.20 0.25 0.30 0.40
C_T 0.11 0.11 0.11 0.00 0.11 0.11 0.11 0.11 0.11 9.99
G_R 3.90 4.21 5.37 7.80 9.27 10.33 10.96 11.49 11.80 9.17
A_SC 4.11 4.64 5.48 8.54 11.38 12.12 12.64 13.80 14.44 9.03
A_G 9.06 11.28 13.17 22.55 28.03 33.09 36.78 39.09 43.73 7.37
A_Sh 1.16 1.37 1.37 1.48 2.00 2.21 2.11 2.00 2.00 9.83
A_P 3.37 3.69 4.21 5.37 6.11 6.22 6.43 6.53 6.53 9.46
A_Sy 10.96 12.75 16.65 24.76 32.35 37.72 42.89 47.21 50.58 6.93
TF 16.54 20.13 25.08 37.93 48.05 54.48 60.17 64.81 68.60 5.60
CBT 29.19 33.83 41.10 56.16 65.44 69.97 74.29 77.03 80.93 4.13
平均鲁棒性分数 rs 7.95
扩大系数 β 1

4.2.1.2 面向软标签的鲁棒性评估结果
本节以中文 BERT 为例, 将置信度信息作为衡量输出为软标签的目标模型鲁棒性的指标之一, 分别在新闻分
类和情感倾向分类数据集上计算中文 BERT 模型在各种对抗攻击下的鲁棒性分数.
根据第 3.1.3.2 节中所述, 面向软标签的鲁棒性分数由两部分构成, 分别是基于置信度的鲁棒性分数以及基于
攻击成功率的鲁棒性分数. 表 5 展示了各对抗文本生成方法攻击面向新闻分类任务的中文 BERT 模型时, 生成的
高置信度对抗文本占比、对应的基于置信度的鲁棒性分数 rsv 以及基于置信度的扩大系数 β v 值, 其中 NaN 表示
该方法在对应扰动率下没有生成对抗文本. 从表 5 中能够得到与表 1 和表 2 类似的结论.
由于表 2 得到的面向新闻分类任务的基于攻击成功率计算出的 β u (即表 2 中的 β) 大于表 5 中的 β v , 因此最终
的 β 由后者决定. 将 β 代入公式 (13) 中, 即可得到如表 6 所示的基于成功率的鲁棒性分数 rsu, 进而计算出最终的
联合鲁棒性分数 rs.
表 7 展示了各对抗文本生成方法攻击面向情感倾向分类任务的中文 BERT 模型时, 生成的高置信度对抗文本
占比、对应的基于置信度的鲁棒性分数 rsv 以及基于置信度的扩大系数 β v 值. 将表 4 和表 7 结合可以看出, 面向
情感倾向分类任务时, β u 与 β v 均为 1, 因此这时 β 的最终取值也为 1. 表 4 中展示的鲁棒性得分即为中文 BERT 基
rsv 联合计算, 即可计算出如表 8 所示的中文 BERT 面向情感倾
于攻击成功率计算出的鲁棒性得分 rsu. 将 rsu 和
向分类任务的最终鲁棒性分数 rs.

323 324 325 326 327 328 329 330 331 332 333