Page 320 - 《软件学报》2025年第10期

P. 320

张云婷等: 中文对抗攻击下的 ChatGPT 鲁棒性评估 4717

和公式 (3), 面向文本分类任务的对抗文本定义的形式化表示如下:

{ ( )
g x i , x ⩽ ε
′
( )
′
f (x i ) , f x , s.t. ( ) i (5)
h x ⩾ φ
i
′
i
当目标模型的输出为包含置信度信息的软标签时, 本节将进一步考虑置信度的约束. 在这种情况下, 结合公
式 (2)–公式 (4), 本节面向文本分类任务的对抗文本定义的形式化表述如下:
 ( )
 g x i , x ⩽ ε
′
 i
( )  ( )

′
f (x i ) , f x , s.t.  h x ⩾ φ (6)
′
i
i

 ( )
′
 e x ⩾ θ
i
值得注意的是, 尽管本节提供了更为全面的对抗文本形式化定义供读者参考, 但由于后文的工作需观察攻击
有效性随扰动比例的变化情况, 因此后文中的工作在严格意义上来说依旧在广义的对抗文本定义下开展.
2.2 威胁模型
面向文本分类任务的对抗攻击的威胁模型设计通常关注两点, 分别是攻击场景以及模型输出的组成部分.
常见的攻击场景可分为白盒场景以及黑盒场景. 其中, 白盒场景下的攻击表示敌手知道关于目标模型的全部
信息, 包括目标模型的所有训练数据、目标模型的内部结构以及所有参数信息. 而黑盒场景下的攻击则完全相反,
敌手仅允许访问目标模型并得到相应的输出, 对该模型的训练数据、内部结构以及参数等信息一无所知. 相比于
白盒场景, 黑盒场景为物理世界中更为普遍的攻击场景. 因此在本工作中无论是针对中文 BERT 模型还是 ChatGPT
模型的攻击, 均为黑盒场景下的攻击.
目标模型的输出通常有两种, 分别为硬标签和软标签. 其中, 硬标签中仅包含目标模型对输入文本的预测标签;
而软标签中不仅包含预测标签, 还包括该预测标签所对应的分类置信度. 本文将中文 BERT 模型作为中间目标模
型进行攻击, 随后利用对抗样本的可迁移性来攻击最终目标模型 ChatGPT. 在攻击中文 BERT 模型过程中使用的
对抗文本生成方法均为基于词语重要性的攻击方法, 均需要通过目标模型输出的分类置信度来计算词语重要性.
因此对于中文 BERT 这一中间目标模型来说, 本工作选择软标签作为其输出. 而最终目标模型 ChatGPT 作为第三
方提供的生成模型而非专业的分类模型, 其输出只能为硬标签.
3 方法论
所提的基于 OAD 的评估方法主要分为两种类型, 分别是基于 OAD 的 LLM 鲁棒性评估方法 ORS 以及基于
OAD 的对抗文本流畅性评估方法 OFS. 图 3 展示了所提方法的总体框架.

无法被ChatGPT分类基于词语重要性的对抗文本生成框架
分类模型排序阶段扰动阶段
对抗文本 Chat- 使用OFS计算对抗
GPT 改进的DS方法 SC / Glyph / Tradition /
文本的流畅性分数 Shuffle / Pinyin / Rewrite
/ Synonyms / Word
能够被ChatGPT分类 Embedding / BERT-MLM
对抗文本大语言模型直接间接
本文流畅性流畅性评估鲁棒性评估攻击攻击
评估方法基于OAD的
评估方法
传统流畅性对抗文本
评估方法
利用对抗文本的
可迁移性攻击 Chat-
BERT
GPT
使用ORS计算目标
模型的鲁棒性分数
对抗文本中间目标模型最终目标模型
(输出为软标签) (输出为硬标签)
人类评估攻击成功率&以高置信度攻击成功率
误分类的对抗文本占比
图 3 基于 OAD 的评估方法总体框架

315 316 317 318 319 320 321 322 323 324 325