Page 323 - 《软件学报》2025年第10期
P. 323

4720                                                      软件学报  2025  年第  36  卷第  10  期


                 示社会新闻, 用    4  表示运动新闻, 用   5  表示无法分类. 回答时请直接给出类别对应的数字, 不必说明原因.”
                    面向情感倾向分类任务时, 本文使用的提示语如下: “请帮我确定以下文本的情感极性. 用 0 表示消极情感,
                 1 表示积极情感, 2 表示无法判断         (只给出结果而不作解释, 且对整体文本只给出一个标签即可, 无需给出多个
                 标签).”
                    在  ChatGPT  未将对抗文本划分为无法分类的条件下, 若            ChatGPT  将对抗文本分类为与其真值标签不一致的
                 标签, 则说明   ChatGPT  被对抗文本欺骗, 视为攻击成功.
                  3.1.3    目标模型鲁棒性打分方法
                    为了实现对目标模型鲁棒性的可量化评估, 本文在第                  3.1.3.1  节中引入了一个新的概念      OAD, 并提出了一种
                 基于  OAD  的目标模型鲁棒性打分方法          ORS. 该方法不但能够评估一个目标模型面对不同对抗攻击时的鲁棒性,
                 还能够在同一基准上对比多个目标模型在多种对抗攻击条件下的鲁棒性, 并最大限度地拉开面对不同对抗攻击
                 时, 目标模型鲁棒性分数的差距, 方便进行更加直观的比较. 本文面向输出为硬标签的目标模型以及输出为软标签
                 的目标模型分别基于        OAD  设计了对应的鲁棒性打分方法, 在第           3.1.3.1  节以及第  3.1.3.2  节中将分别对这两种方
                 法进行详细介绍.
                  3.1.3.1    面向硬标签的打分方法
                    为了对目标模型的鲁棒性设计合理的量化评估指标, 本文引入了一个新的概念                           OAD. OAD  量化了一组离散
                 的实数与某个给定的正常数的平均偏差, 其形式化表示如下. 给定一组包含                       l 个实数的离散的数值      x 1 , x 2 ,..., x l  和一
                                            c 的  OAD  λ 可使用如下公式计算:
                 个常数  c (c > 0), 这组数据与该常数           值

                                                     1  l ∑       1  l ∑
                                                  λ =    (c− x i ) = c−  x i                         (10)
                                                     l            l
                                                      i=1           i=1
                    现将  OAD  用于计算输出为硬标签的目标模型的鲁棒性分数, 本文使用攻击成功率对其进行实例化. 现有                             n 个
                                            m  种攻击方式, 对每种攻击方式都有   种扰动率, 对任意一个扰动率用
                 目标模型, 对每个目标模型均有                                            p
                                                                       j ( j = 1,...,m) 种攻击时, 在不同扰动率下的
                 α k (k = 1,..., p) 表示. 对于第  i (i = 1,...,n) 个目标模型来说, 其面对第
                                                     ( )
                 攻击成功率分别可以用        U ij (α 1 ),U ij (α 2 ),...,U ij α p  表示, 这组数值即为公式  (10) 中多个离散实数的实例化, 而公
                 式     (10) 中的正常数  c 在本工作中将其值设置为     1. 在任意扰动率    α k  下的攻击成功率   U i j (α k ), 可以用如下公式计算:
                                                              u ij (α k )
                                                      U ij (α k ) =                                  (11)
                                                               T
                 其中,  u i j (α k ) 表示当扰动率为  α k  时, 成功攻击目标模型的对抗文本的数量. 而      T  则表示真值标签与预测标签一致
                 的原始良性文本数量.
                    为了使不同攻击方法之间鲁棒性分数的差异更加明显, 本文向公式                       (10) 中引入一个放大系数      β. 为了便于计

                 算最终的鲁棒性得分, 本工作中将           β 设置为正整数. 与此同时, 为了将参数         β 值的范围控制在      (0,100], 本文引入一
                                                                                      j
                 个超参数   q, 并将  q 值设定为  100. 引入上述参数后, 在本工作中, 对于第         i 个目标模型在第   种攻击下的       OAD  的值
                 λ i j  可以用如下公式表示:

                                                  p                    p
                                               q  ∑  [       ]      qβ  ∑
                                           λ ij =   c−U i j (α k )·β = qc−  U ij (α k )              (12)
                                               p                    p
                                                 k=1                  k=1
                                                                                             c
                    为了确保最终的鲁棒性分数的范围为              (0,10], 引入一个控制分制的超参数        η. 结合上文中常数   以及超参数       q
                                                            j
                 的值, 本文将   η 的取值设置为    10. 即第   i 个目标模型在第   种攻击下的最终的鲁棒性得分            rs i j  可用如下公式计算:

                                                                 p
                                                      λ ij  qc  qβ  ∑
                                                 rs ij =  =  −     U i j (α k )                      (13)
                                                      η   η   pη
                                                                k=1
                                                                   (0,10] 的情况下, 将每种目标模型面对各个攻击
                    此时需要给参数       β 找到一个合适的值, 在鲁棒性分数范围在
                 方法时的鲁棒性得分尽量拉开差距, 从而使得分数的对比更加直观. 为了找到该值, 本文引入一个决策函数                                 H (z),
                 其自变量   z 为  β 可能的取值. 可使用   λ ij  将  H (z) 进行如下表示:
   318   319   320   321   322   323   324   325   326   327   328