Page 329 - 《软件学报》2025年第10期
P. 329

4726                                                      软件学报  2025  年第  36  卷第  10  期



                      表 5 面向新闻分类时各方法在中文            BERT  上的高置信度对抗文本占比及基于置信度的鲁棒性评估

                                                       不同扰动比例    α 下高置信度对抗文本占比 (%)
                            方法                                                                      rsv
                                             0.05  0.10  0.15  0.20  0.25  0.30  0.35   0.40  0.50
                            C_T              0.00  0.00  NaN   NaN   NaN   NaN   NaN   NaN    NaN  10.00
                            G_R             45.95  64.81  71.01  75.58  65.74  69.23  70.39  69.14  67.04  3.35
                            A_SC            50.00  64.29  59.38  65.49  72.31  71.94  73.15  71.90  70.81  3.34
                            A_G             43.18  41.43  44.95  50.00  53.25  51.41  49.26  45.91  48.72  5.24
                            A_Sh            33.33  20.00  14.29  16.67  20.00  25.00  20.00  33.33  33.33  7.60
                            A_P             38.46  35.71  28.57  31.82  23.08  23.08  24.00  24.00  24.00  7.19
                            A_Sy            58.14  61.11  66.33  65.57  66.20  66.86  69.83  72.34  71.86  3.35
                             TF             65.52  65.69  68.62  71.82  72.08  71.53  72.70  73.08  70.62  2.98
                            CBT             75.56  74.41  75.30  76.03  75.82  78.44  80.27  77.90  77.37  2.32
                  基于置信度的平均鲁棒性分数        rsv                              5.04
                                                                         1
                     基于置信度的扩大系数      β v

                                       表 6 面向新闻分类的中文         BERT  鲁棒性评估   (软标签)

                      方法         基于攻击成功率的鲁棒性分数        rsu     基于置信度的鲁棒性分数       rsv     联合鲁棒性分数     rs
                      C_T                  10.00                       10.00                 10.00
                      G_R                  8.87                        3.35                  6.11
                      A_SC                 8.79                        3.34                  6.06
                      A_G                  8.46                        5.24                  6.85
                      A_Sh                 9.95                        7.60                  8.77
                      A_P                  9.77                        7.19                  8.48
                      A_Sy                 8.60                        3.35                  5.98
                       TF                  7.57                        2.98                  5.28
                      CBT                  6.14                        2.32                  4.23
                     平均值                   8.68                        5.04                  6.86
                    扩大系数  β                                        1

                      表 7 面向情感分类时各方法在中文            BERT  上的高置信度对抗文本占比及基于置信度的鲁棒性评估

                                                       不同扰动比例    α 下高置信度对抗文本占比 (%)
                            方法                                                                      rsv
                                             0.01  0.03  0.05  0.10  0.15  0.20  0.25   0.30  0.40
                            C_T              0.00  0.00  0.00  NaN   0.00  0.00  0.00   0.00  0.00  10.00
                            G_R             45.95  42.50  43.14  41.89  42.05  39.80  43.27  43.12  43.75  5.72
                            A_SC            35.90  34.09  38.46  45.68  45.37  45.22  45.00  41.98  42.34  5.84
                            A_G             44.19  43.93  48.00  51.87  51.50  52.55  53.58  54.99  54.46  4.94
                            A_Sh             9.09  15.38  15.38  14.29  15.79  14.29  15.00  15.79  15.79  8.55
                            A_P             25.00  31.43  27.50  35.29  43.10  42.37  39.34  40.32  40.32  6.39
                            A_Sy            54.81  55.37  56.33  61.28  63.52  69.27  67.81  70.31  73.75  3.64
                             TF             43.95  49.21  50.00  61.11  65.57  72.15  75.13  75.28  79.88  3.64
                            CBT             59.21  62.62  67.18  72.80  79.55  81.63  83.55  84.27  86.98  2.47
                  基于置信度的平均鲁棒性分数        rsv                              5.69
                                                                         1
                     基于置信度的扩大系数      β v

                    结合第   4.2.1.1  节和第  4.2.1.2  节的所有实验可知, 无论是   ChatGPT  模型还是中文    BERT  模型, 相比于字符级
                 的对抗攻击, 它们更难抵御词语级的对抗攻击. 其中, 这两个模型对字符级的                      C_T  攻击的抵御效果最好, 而面对词
                 语级的   CBT  攻击时鲁棒性最弱. 与此同时, 在同一评价体系内, ChatGPT               的平均鲁棒性得分比中文          BERT  高
                 15%–20%  左右. 但  ChatGPT  也在文本对抗攻击下展现出脆弱性, 在情感倾向性分类数据集上, CBT                   对  ChatGPT
                 的攻击成功率最高可超过         40%.
   324   325   326   327   328   329   330   331   332   333   334