Page 324 - 《软件学报》2025年第10期
P. 324
张云婷 等: 中文对抗攻击下的 ChatGPT 鲁棒性评估 4721
p
qz ∑
H (z) = qc− max U ij (α k ) = min λ i j (z) (14)
i∈{1,...,n}∧ j∈{1,...,m} p i∈{1,...,n}∧ j∈{1,...,m}
k=1
参数 β 的值使用决策函数 H (z) 可以进行如下表示:
{
100, if H (100) > 0
β = (15)
z, if H (z) > 0∧ H (z+1) ⩽ 0∧z ∈ {1,2,...,99}
结合公式 (14) 和公式 (15), 即可得到适用于当前所有模型在各种攻击下的参数 β. 将得到的 β 值代入公式
(13) 中, 即可计算出每个目标模型在每种攻击下的鲁棒性得分.
3.1.3.2 面向软标签的打分方法
相比于输出为硬标签的目标模型, 输出为软标签的目标模型除了可以使用攻击成功率作为模型鲁棒性的评估
依据外, 还可以使用高置信度的对抗文本占比来衡量目标模型的鲁棒性. 因为高置信度的对抗文本占比能够反映
目标模型被对抗样本迷惑的程度, 该比例越高, 则目标模型被迷惑的程度越深. 本文将置信度超过 0.8 的对抗文本
视为高置信度的对抗文本. 对于输出为软标签的目标模型, 本工作使用攻击成功率和高置信度对抗文本占比结合
的方式, 将 OAD 进行实例化. 其中, 使用攻击成功率对 OAD 的实例化过程与第 3.1.3.1 节一致, 下面简单介绍使用
高置信度对抗文本占比对 OAD 的实例化过程.
对于第 i (i = 1,...,n) 个目标模型来说, 其面对第 j ( j = 1,...,m) 种攻击时, 在不同扰动率下高置信度对抗文本占
( )
比可以用 V i j (α 1 ),V ij (α 2 ),...,V i j α p 表示. 在任意扰动率 α k 下的高置信度对抗文本占比可用 V i j (α k ) 表示, 其中 V i j (α k )
的值可以使用如下公式计算:
v i j (α k )
V i j (α k ) = (16)
T ′
j
其中, v i j (α k ) 表示当扰动率为 α k 时, 以高置信度误分类的对抗文本数. 而 T 则表示面向第 个目标模型使用第 种
′
i
攻击方法成功生成的对抗文本总数.
V i j (α k ) 替换公式 (12)–公式 U i j (α k ), 所有超参数的值均与第 3.1.3.1 节中对应的值一致. 再将使
使用 (14) 中的
用 V i j (α k ) 替换后的公式 (14) 与公式 (15) 结合, 即可求出适用于高置信度对抗文本占比实例化的 β v . 将适用于攻击
β u . 为了使基于攻击成功率计算的模型鲁棒性分数和基于高置信度文本占比计算的
成功率实例化的扩大系数设为
模型鲁棒性分数能够在同一基准上计算, 因此需要对最终的 β 值进行统一. 结合公式 (15) 可知, 为了避免决策函数
的取值为负数, 需要在 β u 和 β v 中取一个较小的值. 则最终的 β 取值如下:
β = min{β u ,β v } (17)
将最终得到的 β 值分别代入公式 (13) 以及使用 V i j (α k ) 替换后的公式 (13) 中, 可以分别得到基于攻击成功率
rsv ij . 则第 个目标模型在第
i
计算的模型鲁棒性分数 rsu ij 以及基于高置信度对抗文本占比计算的模型鲁棒性分数
j 种攻击下的最终鲁棒性得分 rs ij 可以使用如下公式计算:
( )/
rs i j = rsu i j +rsv ij 2 (18)
i
j
在上述过程中需要注意的是, 若在某种扰动率 α k 下, 使用第 种方法攻击第 个模型时, 未成功生成任何对抗
文本, 此时公式 (16) 中的 T 为 ′ 0, 则 V ij (α k ) 无法计算. 在这种情况下, 计算参数 β 以及 rsv ij 时, 仅需将扰动率种类
j
的总数 p 替换为 V ij (α k ) 可以计算出实际值时对应的扰动率的数目. 若使用第 种方法攻击第 i 个目标模型时, 在所
j
i
有扰动率下的 V ij (α k ) 均无法计算, 则在计算 β 时跳过面向第 个目标模型的第 种方法, 并将 rsv ij 置为 NaN. 在这
j
i
种情况下, 最终的鲁棒性得分 rs ij 仅由 rsu ij 决定, 则此时第 个目标模型在第 种攻击方法下的最终鲁棒性得分
rs i j 可表示如下:
(19)
rs ij = rsu ij
3.2 基于 OAD 的对抗文本流畅性评估
本文将所提的 OAD 的应用扩展到对抗文本的流畅性评估中, 提出一种基于 OAD 的对抗文本流畅性打分方
法 OFS, 实现此过程的自动化. 传统的对抗文本流畅性评估方式往往需要人类参与 [8−12,14−17,21] , 这在一定程度上消

