Page 329 - 《软件学报》2025年第10期

P. 329

4726 软件学报 2025 年第 36 卷第 10 期

表 5 面向新闻分类时各方法在中文 BERT 上的高置信度对抗文本占比及基于置信度的鲁棒性评估

不同扰动比例 α 下高置信度对抗文本占比 (%)
方法 rsv
0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50
C_T 0.00 0.00 NaN NaN NaN NaN NaN NaN NaN 10.00
G_R 45.95 64.81 71.01 75.58 65.74 69.23 70.39 69.14 67.04 3.35
A_SC 50.00 64.29 59.38 65.49 72.31 71.94 73.15 71.90 70.81 3.34
A_G 43.18 41.43 44.95 50.00 53.25 51.41 49.26 45.91 48.72 5.24
A_Sh 33.33 20.00 14.29 16.67 20.00 25.00 20.00 33.33 33.33 7.60
A_P 38.46 35.71 28.57 31.82 23.08 23.08 24.00 24.00 24.00 7.19
A_Sy 58.14 61.11 66.33 65.57 66.20 66.86 69.83 72.34 71.86 3.35
TF 65.52 65.69 68.62 71.82 72.08 71.53 72.70 73.08 70.62 2.98
CBT 75.56 74.41 75.30 76.03 75.82 78.44 80.27 77.90 77.37 2.32
基于置信度的平均鲁棒性分数 rsv 5.04
1
基于置信度的扩大系数 β v

表 6 面向新闻分类的中文 BERT 鲁棒性评估 (软标签)

方法基于攻击成功率的鲁棒性分数 rsu 基于置信度的鲁棒性分数 rsv 联合鲁棒性分数 rs
C_T 10.00 10.00 10.00
G_R 8.87 3.35 6.11
A_SC 8.79 3.34 6.06
A_G 8.46 5.24 6.85
A_Sh 9.95 7.60 8.77
A_P 9.77 7.19 8.48
A_Sy 8.60 3.35 5.98
TF 7.57 2.98 5.28
CBT 6.14 2.32 4.23
平均值 8.68 5.04 6.86
扩大系数 β 1

表 7 面向情感分类时各方法在中文 BERT 上的高置信度对抗文本占比及基于置信度的鲁棒性评估

不同扰动比例 α 下高置信度对抗文本占比 (%)
方法 rsv
0.01 0.03 0.05 0.10 0.15 0.20 0.25 0.30 0.40
C_T 0.00 0.00 0.00 NaN 0.00 0.00 0.00 0.00 0.00 10.00
G_R 45.95 42.50 43.14 41.89 42.05 39.80 43.27 43.12 43.75 5.72
A_SC 35.90 34.09 38.46 45.68 45.37 45.22 45.00 41.98 42.34 5.84
A_G 44.19 43.93 48.00 51.87 51.50 52.55 53.58 54.99 54.46 4.94
A_Sh 9.09 15.38 15.38 14.29 15.79 14.29 15.00 15.79 15.79 8.55
A_P 25.00 31.43 27.50 35.29 43.10 42.37 39.34 40.32 40.32 6.39
A_Sy 54.81 55.37 56.33 61.28 63.52 69.27 67.81 70.31 73.75 3.64
TF 43.95 49.21 50.00 61.11 65.57 72.15 75.13 75.28 79.88 3.64
CBT 59.21 62.62 67.18 72.80 79.55 81.63 83.55 84.27 86.98 2.47
基于置信度的平均鲁棒性分数 rsv 5.69
1
基于置信度的扩大系数 β v

结合第 4.2.1.1 节和第 4.2.1.2 节的所有实验可知, 无论是 ChatGPT 模型还是中文 BERT 模型, 相比于字符级
的对抗攻击, 它们更难抵御词语级的对抗攻击. 其中, 这两个模型对字符级的 C_T 攻击的抵御效果最好, 而面对词
语级的 CBT 攻击时鲁棒性最弱. 与此同时, 在同一评价体系内, ChatGPT 的平均鲁棒性得分比中文 BERT 高
15%–20% 左右. 但 ChatGPT 也在文本对抗攻击下展现出脆弱性, 在情感倾向性分类数据集上, CBT 对 ChatGPT
的攻击成功率最高可超过 40%.

324 325 326 327 328 329 330 331 332 333 334