Page 318 - 《软件学报》2025年第10期
P. 318
张云婷 等: 中文对抗攻击下的 ChatGPT 鲁棒性评估 4715
了 counter-fitting [27] 的机制确保了替换前后的语义一致性. Ren 等人 [12] 利用 WordNet 构造原词语的同义词候选集,
相比于在向量空间中寻找原词语的替换词, 前者使用基于专家知识构造的同义词集, 能够得到更加精准的同义词,
无需反义词过滤这一步骤. 与 Ren 等人使用的方法类似, Zang 等人 [9] 也使用了基于专家知识构造的词集来挑选与
原词语含义相似的词. 但与前者不同的是, 后者使用 HowNet 词典寻找与原词语具有相同义原的词. 义原是最小的
语义单位, 其无法再进行进一步的分割. 相比于传统的同义词, 基于义原寻找原词的替换词能够为原词语找到更多
的候选词, 这在一定程度上提高了攻击成功率; 与此同时, 相比于词嵌入空间中与原词语距离相近的候选词, 基于
义原所找到的替换词同时具备了传统同义词词义精准的优势. 由此可见, 基于义原的词语替换方法在传统同义词
替换法以及词嵌入替换法之间达到了一个合适的平衡. 然而, 上述词语级的扰动方法仅考虑了原词语的语义, 却并
未考虑上下文的语境. 基于此种考虑, 许多工作 [11,15,16] 使用生成能力较强的 BERT 模型根据上下文语境来生成原
词语的候选词集. 这类工作基于 BERT 模型中的 MLM 机制来完成替换词集的生成, 但在细节上均有一些各自不
同的特点. Li 等人 [11] 提出的 BERT-Attack 重点考虑了单个词语以及会被 BERT 分词分成多个子词的词语. 其中,
后者需要考虑所有替换子词的组合, 并通过 BERT 的分词机制将每种子词组合还原成对应的词语. Garg 等人 [15] 提
出的 BAE 则提出了 3 种基于 MLM 的扰动方法, 除了简单的替换操作外, 还可以在某个英文单词的左边或右边插
入一个额外的词, 通过 MLM 机制来预测这个被插入的词语. Li 等人 [16] 提出的 CLARE 除了替换和插入还提出了
一种新的归并策略. 该策略具体是将两个英文单词使用一个掩码位遮蔽, 并用 MLM 机制对其进行预测, 从而达到
将原来的两个词语归并为一个词语的目的.
汉语作为全世界范围内使用人数较多的一种语言, 也有许多工作根据汉语的语言特点设计了许多不同的中文
扰动方法. 与英文中基于相似外形以及相似语义而设计出的扰动方法不同, 最初的中文扰动方法是一种基于相似
发音设计的方法 [4] . 王文琦等人 [4] 基于汉语中特有的拼音方案, 汉语拼音, 设计了一种词语级的中文扰动方法. 该
方法基于拼音构造声母韵母相同但声调可能不同的词语作为原词语的替换词. 而 Zhang 等人 [17] 对这种扰动方法
进行了改进, 他们将相似的平翘舌发音以及前后鼻音也考虑在内, 设计出一种基于拼音的谐音词替换方法. 与此同
时, Zhang 等人还将部分英文扰动方法迁移到中文中并进行改进. 他们将 Li 等人 [14] 提出的相邻字母交换、词语级
替换方法分别迁移至中文并改进为适用于中文的 Shuffle 方法和 Synonyms 方法. 其中, Shuffle 方法是打乱一个词
语中的汉字顺序, 而 Synonyms 方法则是使用了专家构造的同义词典而非使用词嵌入的方式来找原词语的同义词.
除此以外, Zhang 等人也针对汉语的语言特点设计了两种新的字符级中文扰动方法, 分别是 Splitting-Character
(SC) 以及 Glyph. 这两种方法都是基于相似外形设计的方法, 其中 SC 将一个汉字拆解为组成它的部首, 而 Glyph
则是使用 CNN 来找到原汉字的形近字. 在同一时期, Cheng 等人 [18] 也提出了与 Shuffle 和 SC 相似的方法, 但除了
这两种方法外, 他们还提出了向词语中插入特殊字符的中文扰动方法. 而仝鑫等人 [19] 在 Cheng 等人的基础上, 提
出了繁体字替换和拼音改写的中文扰动方法. 其中繁体字替换是将简体字变为与之对应的繁体形式, 而拼音改写
则是将原来的中文词语全部转化为其对应的拼音形式. Ou 等人 [20] 将英文扰动方法迁移至中文, 并对上述提到的一
些中文扰动方法进行了改进. 他们将英文中基于义原的方法 [9] 迁移至中文, 并将基于拼音的同音词替换 [4] 与拼音
改写 [19] 的方法均进行了相应的改进. 对于基于拼音的同音词替换方法, 他们放宽了对同音词替换的限制, 替换后
的汉字无需能够组成一个有确切含义的词语, 但人类往往能够通过上下文猜测出原始文本要表达的意思. 这种改
动的优势在于, 能够生成更多的词语作为原词语的候选替换词, 一定程度上增加了攻击成功率. 而对于拼音改写方
法, 他们将其改进为随机选择原始中文词语中的任意一个汉字进行拼音改写. 改进后的方法能够增加对抗文本的
可读性, 让阅读对抗文本的人类更容易理解原文本的含义. 张云婷等人 [21] 则将英文中最新的基于 BERT-MLM 的
扰动方法迁移至中文并针对汉语的语言特点对其进行改进. 不同于英文中基于 BERT-MLM 机制所设计的单词替
换、插入及归并策略, 他们提出了 N to 1 和 N to 2 这两种适用于汉语的替换策略, 使该方法在生成尽量多的候选
词的条件下, 最大程度地提升对抗文本的流畅性及与原文的相似度.
上述提到的所有工作均为输出为包含分类置信度的软标签, 这些工作设计对抗文本生成方法时, 均需要用到
目标模型的分类置信度. 而 He 等人 [22] 则设计了一种输出为仅包含预测标签的硬标签时的对抗文本生成方法. 该
方法利用多次询问目标 BERT 模型的方式尝试提取目标模型参数, 构造一个知晓其内部结构和具体参数的白盒

