Page 310 - 《软件学报》2026年第1期
P. 310

刘立伟 等: 数据要素流通全流程隐私关键技术: 现状、挑战与展望                                                 307


                 然这些研究一定程度上揭示了公平性和数据最小化原则间可能存在的权衡关系, 但是如何平衡好二者仍然是颇具
                 挑战的问题, 亟待后来者的探索.
                    ● 性能-隐私权衡: 数据最小化原则要求只获取为实现明确目的所需的最低限度的数据, 但是减少数据量并不
                 等同于隐私保障. 通过建立合适的隐私度量指标, 有助于完善数据最小化策略评估体系. 虽然在多个特定领域中,
                 已有较为有效的数据最小化算法, 但是最优解是否存在, 这些算法是否得到最优解仍然缺少理论层面的证明.
                  2.2   数字水印
                    伴随着以大语言模型为代表的人工智能生成内容                  (artificial intelligence generated content, AIGC) 技术逐渐深
                 入人们日常生活, 数据要素的重要性不断凸显. 在这个过程中, 高价值的数据内容也诱发了一系列针对私人用户数
                 据的违法犯罪行为. 为了进一步加强对国内数据市场的监管, 以数字水印技术为代表的数据溯源技术得到国家机
                 关的高度关注. 数字水印技术旨在通过在数字内容中嵌入不可见的标识信息, 有效防止未经授权的复制和分发. 这
                 种技术不仅能追踪数据泄露源头, 还能验证数据的完整性和真实性, 从而确保隐私信息在数据流通过程中的安全
                 性. 本节将对传统水印和基于深度学习的水印技术进行归纳整理, 其中依据模型与数据的作用模式, 基于深度学习
                 的水印可以进一步分为模型无关水印和模型相关水印.
                  2.2.1    传统水印
                    传统水印的生成一般依赖数据载体的人工特征如像素值、频率等, 因此特征的选取对水印生成结果影响较
                 大. 针对图像数据, 依据水印嵌入空间的不同, 可以将其进一步分为空间域水印、变换域水印和混合域水印. 空间
                 域水印直接嵌入目标图像的像素值中, 易受图像变换                 (压缩、裁剪、旋转) 影响; 变换域水印通过对信号进行频域
                 变换  (如离散傅里叶变换), 在频域隐蔽地嵌入水印信息, 难以被肉眼直接观察, 但是具有较高的计算复杂度; 混合
                 域算法则综合前两者的优势, 将水印部分嵌入到空间域中, 部分嵌入到变换域中, 可以根据不同需求调整水印在空
                 间域和频域中的嵌入比例, 实现更灵活的水印方案. 类似地, 面向视频数据、文本数据等同样可以进行适应性地迁
                 移. 这类传统水印可解释性强, 但是过分依赖人工设计特征, 导致单一方法的泛化性差, 难以应对复杂场景.
                  2.2.2    模型无关水印
                    模型无关水印, 与数据的使用方式相对独立, 主要研究点是如何实现对现成的数据直接添加水印, 关注数据本
                 身. 因为其直接作用于数据本身, 并不依赖数据流通过程中的特定行为, 模型无关水印通常与其他阶段的隐私保护
                 技术具有较好的兼容性. 进一步地, 模型无关水印可以将水印生成方法细分为基于文本规则的水印生成和基于生
                 成内容的水印生成.
                    ● 基于文本规则的水印生成方法: 顾名思义, 该类研究工作从文本固有规则作为切入点, 包括文本格式、词汇
                 语法、语义、句式等. 其基本思路是通过检测添加水印数据中特定的文本特征进行判断. 一种基于词汇替换的方
                 法是  Sato  等人  [13] 提出名为  EasyMark  的水印生成技术, 其核心思路是对文本数据编码进行字符替换, 通过检测水
                 印文本数据中存在的替换字符进行水印检测. 但是这种方法鲁棒性较差, 攻击者在了解攻击机制的前提下仅需重
                 新处理文本即可消除水印. 类似地, Munyer 等人          [14] 通过使用预训练的 Word2Vec 模型进行语义建模, 将选定的词
                                    n  个最近的向量作为替换候选, 最后使用了一个包含预训练 BERT                       模型和转换器
                 汇转换为向量, 并识别
                 (Transformer) 模块的二分类器进行水印检测, 但是该方法往往忽略目标词的上下文, 可能会损害句子语义信息和
                 文本质量. 除此之外, Atallah   等人  [15] 引入了  3  种典型的句法转换进行水印嵌入——附加语移动、分裂句和被动化.
                 每种转换类型被分配了一个唯一的信息位比如被动化对应数字                       2, 在水印检测过程中, 原始文本和添加水印的文
                 本都被转换为句法树, 通过比较句法结构来提取水印信息.
                    ● 基于生成内容: 上述基于文本规则的水印生成方法研究虽然在过去几年取得了显著进展, 但是由于其普遍
                 依赖特定的文本规则, 易导致文本质量的下降. 基于生成内容的水印生成方法, 则是实现了利用原始文本和水印信
                 息直接生成水印文本. Abdelnabi 等人      [16] 提出的一种端到端的水印生成方法         AWT. 该方案在水印嵌入过程中, 首先
                 使用  Transformer 的编码器对句子进行编码, 并将句子和预先准备的水印信息合并后输入                      Transformer 下游的解
                 码器, 最后得到水印文本. 水印检测的时候, 将水印文本输入                 Transformer 的编码器, 反向解出其中的水印信息. 伴
   305   306   307   308   309   310   311   312   313   314   315