Page 325 - 《软件学报》2025年第10期
P. 325
4722 软件学报 2025 年第 36 卷第 10 期
耗了较多的人力和物力. 本工作利用了 ChatGPT 强大的自然语言理解能力, 将其作为分类模型对输入的对抗文本
进行分类. 在本工作中, 将无法被 ChatGPT 分类的对抗文本视作不流畅的对抗文本, 而可以被 ChatGPT 分类为有
效类别的对抗文本则视作流畅的对抗文本. 在这种情况下, 仅将 ChatGPT 当作一个分类模型而非目标模型,
ChatGPT 仅起到评估对抗文本流畅性的作用. 分类提示语同第 3.1.2 节中提到的一致.
依照上述思路, 结合基于 OAD 的评估方法, 可以使用无法被 ChatGPT 分类的对抗文本占比对 OAD 进行实例
化, 以实现自动化的流畅性评估. 下面简单介绍这一实例化过程.
i (i = 1,...,n) 个 DL j ( j = 1,...,m) 种对抗文本生成方法生成的对抗文本, 在不同扰动率
针对第 模型, 使用第
( )
下无法被 ChatGPT 分类的对抗文本所占的比例可以用 W ij (α 1 ),W i j (α 2 ),...,W i j α p 表示. 在任意扰动率 α k 下无法
被分类的对抗文本占比可用 W ij (α k ) 表示, 其中 W ij (α k ) 的值可以使用如下公式计算:
w ij (α k )
W i j (α k ) = (20)
T ′′
其中, w i j (α k ) 表示当扰动率为 α k 时, 无法被 ChatGPT 分类的对抗文本数. T ′′ 则表示真值标签与 ChatGPT 分类的
预测标签一致的原始良性文本数量.
W ij (α k ) 替换公式 (12)–公式 U i j (α k ), 所有超参数的值均与第 3.1.3.1 节中对应的值一致. 再将使
使用 (14) 中的
用 W ij (α k ) 替换后的公式 (14) 与公式 (15) 结合, 即可求出适用于对抗文本流畅性自动化评估的 β. 将得到的 β 值代
j
入使用 W ij (α k ) 替换后的公式 (13) 中, 即可得到针对第 i 个模型, 使用第 种攻击方法所生成的对抗文本的最终流
fs .
畅性得分 i j
通过上述内容可知, 使用本文提出的 OFS 能够实现自动化的对抗文本流畅性评估, 同时能够得到量化的流畅
性分数. 该方法不但能够更加直观地评估各攻击方法生成的对抗文本的流畅性, 还能够大大减少评估过程中耗费
的人力物力, 降低评估成本.
4 实验分析
4.1 实验设置
4.1.1 数据集
本工作面向中文文本分类任务设计对抗文本, 使用了两个真实世界中的数据集, 分别是中文新闻分类数据集
[30] [31]
THUCNews 以及 ChineseNlpCorpus 中包含的中文情感倾向分类数据集. 对于新闻分类数据集, 本文选取其中
科技、教育、财经、社会及体育这 5 个类别下的新闻, 每个类别各随机选择 35 000 条数据. 截取每个新闻的标题,
按训练集、验证集、测试集 5:1:1 的比例构造训练数据. 对于情感倾向分类数据集, 本文选取其中对图书、平板、
手机、水果、洗发水、热水器、蒙牛牛奶、服装、电脑、宾馆这 10 种物品的评论, 共包含 31 728 条正面评论以及
31 046 条负面评论. 将每个类别的物品的正面评论和负面评论分别按 8:1:1 的比例进行划分, 再将所有类别的物品
评论分别整合为训练集、验证集、测试集并打乱顺序, 构造最终训练数据.
4.1.2 目标模型及训练细节
本文将中文 BERT 模型以及 ChatGPT 模型作为目标模型进行攻击. 对于中文 BERT 模型, 本工作面向文本分
类任务, 使用第 4.1.1 节中提到的两种数据集分别对预训练模型 BERT-base-chinese 进行微调. 将 hidden size 设置
为 768. 对于新闻分类任务, 训练时的 padding size、batch size 以及 epochs 分别设置为 32、64 和 3; 对于情感倾向
分类任务, 上述 3 个参数分别设置为 256、16 和 3. 对于这两种分类任务, 训练时采用的优化算法均是学习率为
5×10 −5 的 Adam [32] 算法, 使用的 GPU 均为 NVIDIA GeForce RTX 3080. 对于 ChatGPT 模型的介绍见第 3.1.2 节,
在此不再赘述.
4.1.3 攻击方法
本文使用的攻击方法共 9 种, 均在基于词语重要性的对抗文本生成框架下设计, 下面按该框架的排序阶段和
扰动阶段分别介绍这两个阶段中采用的具体方法.

