Page 311 - 《软件学报》2026年第1期
P. 311
308 软件学报 2026 年第 37 卷第 1 期
随着近年来大语言模型的兴起, 其生成高质量文本的能力引起水印研究人员的高度关注. 大语言模型强大的释义
能力能够增强生成文本的自然性, 帮助产生更流畅和更自然的水印内容. Lau 等人 [17] 设计了一种基于大语言模型
的水印生成方案 Waterfall, 该方法使用大语言模型对原始文本进行释义, 并创新性地提出一种正交水印扰动方法,
提高了该方法的性能和鲁棒性.
模型无关水印关注数据本身的特性使其在工程实现上具有相当的便利性, 例如 EasyMark [13] 在设计中提到该
水印生成代码可以直接整合到大语言模型的输出中, 这个过程无关模型的具体实现方式, 相当于手动为模型输出
添加水印. 但是, 模型无关水印方案的鲁棒性仍有待优化, 如果方案设计过于简单且攻击者获得了水印方案相关的
知识, 水印信息易被移除.
2.2.3 模型相关水印
不同于模型无关水印, 模型相关水印的生成方案在水印嵌入过程中往往需要利用模型进行特定操作, 可能变
更模型的参数, 或是修改模型的输出机制. 根据水印生成过程中模型作用的不同, 模型相关水印生成方案可以细分
为训练时水印和推断时水印.
● 训练时水印: 其特点是水印生成过程需要改变模型的参数, 其中一种思路是通过在数据集中加入一些触发
器 (trigger) 样本, 在模型训练时植入后门来实现, 因此也常被称作后门水印. 当这些触发器出现在输入中时, 模型
会表现出特定的行为 (如特定的格式或输出), 因此这种水印可以由数据集提供者添加以保护数据集版权, 或者由
模型提供者添加以保护模型版权. 需要注意的是, 由于大模型训练开销大, 重训练困难, 因此训练时水印中涉及的
模型普遍采用一些简单分类模型进行探讨. 文献 [18] 中提出一种简单有效的基于后门的水印算法, 通过给触发器
样本指定一个错误的标签, 在训练中为神经网络植入后门. 但是, 这种错误标签可能导致模型出现明显的性能下
降, 因此, 文献 [19] 提出先通过对抗攻击生成不可察觉的扰动替换错误标签样本, 掩盖样本本身有用的特征, 确保
水印样本与原始标签保持一致. 然后植入后门触发器样本, 让模型建立触发器到标签的映射.
● 推断时水印: 这种技术强调在不更改模型的参数的前提下完成水印的嵌入. 其基本思路是通过改变模型在
输出单词 (token) 时的操作机制把水印嵌入到生成的文本中. Kirchenbauer 等人 [20] 尝试通过修改模型输出 logits 进
行水印嵌入. 其方案实现基于一个“红绿表”的策略, 通过更改 logits 的概率, 使得偏差能被水印检测器检测到. 生成
红绿表的过程中利用私钥与哈希函数以保证随机性, 其基础原理是随机筛除一半的候选词, 则模型的输出必不含
这些词, 而人工生成的句子将以 50% 的概率包含筛除列表中的词汇, 通过检测概率分布的偏差实现水印检测. 此
外, 部分工作思路则是从 logits 到 token 间的采样过程入手, 基于私钥和哈希函数等生成伪随机数, 并将其转化为
伪随机向量, 应用指数最小采样来选择相应单词. 水印检测则是通过评估文本与伪随机向量序列之间的对齐情况
是否超过阈值.
2.2.4 未来挑战
● 鲁棒性问题: 在介绍模型无关水印的过程中我们初步讨论了基于文本规则的水印生成算法的鲁棒性. 事实
上, 在具有严格的句法或格式要求的场景下, 水印文本空间的上限较低, 水印生成更加困难, 目前仍然缺乏合适的
解决方案; 另一方面, 文献 [3] 中提到的公开可验证性场景也给水印生成带来极大挑战. 在这种场景中, 水印检测
器对用户公开, 用户可能利用检测器伪造水印. 检测器公开给攻击者在设计目标攻击算法时带来较大的便利性, 对
水印算法的鲁棒性造成严峻挑战, 例如使用检测器通过逆向工程获取生成器实现水印伪造 [21] . 未来工作应针对上
述所说的实际场景探索更加鲁棒的水印生成算法, 抵御潜在的水印伪造攻击.
● 数据集版权: 虽然前文中我们也讨论了相关的数据集版权保护工作 [18,19] , 但是这类工作在设计工程中普遍
借鉴了后门攻击的思路, 即在大量数据中植入部分触发器样本. 在这种场景下, 修改数据集的其他样本, 可能对水
印检测结果无明显影响, 即忽视了整个数据集的版权保护. 在现实场景下, 恶意的数据篡改可能会对数据的原始所
有者造成重大影响, 引发道德和法律争议.
3 数据流通
数据流通是指数据在不同主体 (系统、组织或平台) 之间进行共享、传递和交换的过程. 数据流通实现了不

