Page 327 - 《软件学报》2025年第10期

P. 327

4724 软件学报 2025 年第 36 卷第 10 期

提的适用于输出为硬标签的目标模型的评估方法对其鲁棒性进行评估. 虽然 ChatGPT 的输出的为硬标签而中文
BERT 的输出为软标签, 但为了将两者在同一基准上比较, 在本节中对于这两个目标模型都仅关注各攻击方法在
不同扰动比例下对它们的攻击成功率. 而在第 4.2.1.2 节中再进一步展示加入置信度信息后, 中文 BERT 模型的鲁
棒性评估结果.
面向新闻分类时, 在目标模型为 ChatGPT 以及中文 BERT 的情况下, 每种攻击方法的攻击成功率、对应的鲁
β 值分别如表 1 和表 2 所示, 其中表格的第 1 列表示各种对抗文本生成方法. 从表 1 和
棒性分数 rs 以及扩大系数
表 2 中可以看出, 对于绝大多数方法, 攻击成功率均随扰动比例的增加而上升. 将表 1 和表 2 中结合来看, 可以看
出无论是 ChatGPT 还是中文 BERT, 在面对 C_T 的攻击时, 它们的鲁棒性分数均是所有攻击方法中最高的; 而在
面对 CBT 的攻击时, 它们的鲁棒性分数则均是所有攻击方法中最低的. 这说明无论是 ChatGPT 还是中文 BERT
均能在很大程度上抵御 C_T 的攻击, 但却较难抵御 CBT 的攻击. 与此同时, 能够发现这两个目标模型面对词语级
对抗攻击时的鲁棒性分数明显比面对字符级对抗攻击时的鲁棒性分数低. 这说明相比于字符级对抗文本生成方
法, 这两个目标模型更难抵御词语级对抗文本生成方法的攻击. 而将表 1 和表 2 进行对比可知, ChatGPT 面对各种
攻击方法时的平均鲁棒性分数比中文 BERT 高 20% 左右, 这说明相比于中文 BERT, ChatGPT 在对抗攻击下具有
更强的鲁棒性.

表 1 面向新闻分类时各方法对 ChatGPT 的攻击成功率及鲁棒性评估

不同扰动比例 α 下的攻击成功率 (%)
方法 rs
0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50
C_T 1.24 2.23 2.11 1.86 1.98 2.23 2.23 2.35 2.23 9.59
G_R 3.22 3.59 4.58 4.83 4.71 4.21 4.46 4.83 3.72 9.15
A_SC 3.22 4.09 3.84 3.84 3.10 2.60 2.48 2.23 2.11 9.39
A_G 4.34 5.08 4.71 4.21 3.84 3.35 2.97 2.23 1.61 9.28
A_Sh 4.46 4.71 5.33 4.83 5.70 5.58 5.58 4.96 4.71 8.98
A_P 3.10 4.46 4.46 4.21 4.46 4.21 4.46 4.58 4.46 9.15
A_Sy 3.59 4.46 4.83 5.58 5.58 5.95 6.32 6.44 6.32 8.91
TF 5.33 6.69 7.81 8.55 8.92 9.05 8.80 9.05 9.42 8.36
CBT 7.93 11.28 13.88 14.37 15.12 16.85 16.98 17.22 16.60 7.11
平均鲁棒性分数 rs 8.88
β 2
扩大系数

表 2 面向新闻分类时各方法对中文 BERT 的攻击成功率及鲁棒性评估 (硬标签)

不同扰动比例 α 下的攻击成功率 (%)
方法 rs
0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50
C_T 0.10 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
G_R 3.84 5.60 7.16 8.92 11.20 13.49 15.77 16.80 18.57 7.75
A_SC 4.15 7.26 9.96 11.72 13.49 14.42 15.46 15.87 16.70 7.58
A_G 4.56 7.26 11.31 12.86 15.98 18.36 21.06 22.82 24.27 6.92
A_Sh 0.21 0.52 0.73 0.62 0.52 0.41 0.52 0.62 0.62 9.89
A_P 1.35 1.45 2.18 2.28 2.70 2.70 2.59 2.59 2.59 9.55
A_Sy 4.46 7.47 10.17 12.66 14.73 17.53 18.57 19.5 20.64 7.21
TF 9.02 14.21 19.50 22.82 24.90 28.42 30.39 32.37 36.72 5.15
CBT 18.67 26.35 34.02 37.66 41.18 43.78 46.27 48.34 51.35 2.28
平均鲁棒性分数 rs 7.37
扩大系数 β 2

面向情感倾向分类时, 在目标模型为 ChatGPT 以及中文 BERT 的情况下, 每种攻击方法的攻击成功率、对应
β 值分别如表 3 和表 4 所示. 表 3 和表 4 中的数据规律与表 1 和表 2 中类似, 因此可以得到与
的鲁棒性分数以及

322 323 324 325 326 327 328 329 330 331 332