Page 308 - 《软件学报》2026年第1期
P. 308
刘立伟 等: 数据要素流通全流程隐私关键技术: 现状、挑战与展望 305
护相关法律法规的完善, 如何在合法前提下安全高效地采集并管理数据成为数据科学领域研究者关注的热点问
题. 本节内容将聚焦数据流通前的隐私关键技术, 首先介绍数据最小化 (data minimization, DM) 原则, 随后介绍数
字水印 (digital watermarking) 技术.
2.1 数据最小化原则
2.1.1 法律溯源
欧盟《通用数据保护条例》第 5 条中首次提出数据最小化原则, 要求企业在采集个人数据的过程中应遵循适
当, 相关的原则, 并要求采集数据受限于处理目的所需. 简而言之, 数据最小化原则旨在确保数据采集者仅收集、
处理和存储为实现特定目的所必需的数据量, 以最大限度地减少数据滥用、未经授权访问或数据泄露的可能性,
契合隐私保护的基本原则, 近些年来已得到包括《加州隐私权法案》《中华人民共和国个人信息保护法》等多部
数据保护法规的认可.
2.1.2 研究分类
实现数据最小化的过程本质上是对数据进行筛选、裁剪的过程, 根据数据裁剪维度的不同, 通常可将数据最
小化研究领域细分为水平数据最小化 (hDM) 和垂直数据最小化 (vDM), 工作机理如图 2 所示.
敏感信息
··· ··· ··· ···
9965 9965
样本 9964 样本 9964
序号 序号
··· ··· ··· ···
0002 0002
0001 0001
年龄 种族 ··· 爱好 生日 年龄 种族 ··· 爱好 生日
特征空间 特征空间
(a) 水平数据最小化示意图 (b) 垂直数据最小化示意图
图 2 数据最小化分类系统与工作机理
● 水平数据最小化 (hDM): 主要研究的是在数据层面通过减少数据点的数量以达成最小化的目的, 在部分研
究中也常将其称为深度型数据最小化. 将数据集在二维平面上展开, 以数据标识符作为纵坐标, 数据字段或特征作
为横坐标, 数据点可以解释为数据集中某一条完整的数据或是用户数据集中用户的单条数据, 减少数据点的过程
即水平擦除的过程. 这种方式直观且高效, 在研究初期得到众多研究者的青睐. 其核心思路是通过使用数据修剪等
方法来减少唯一数据点的数量. Paul 等人 [5] 为在训练早期阶段寻找数据中对于模型泛化性能影响较大的示例, 提
出两种分数——梯度归一化 (GraNd) 和误差 L2-范数 (EL2N) 分数, 在不牺牲测试准确性的前提下在各种数据集
上成功剪枝大量训练数据. Shanmugam 等人 [6] 提出了一个用于限制数据过度收集的框架 FIDO, 其利用分段幂律
技术迭代更新性能曲线的估计值来提供数据收集停止准则. 但是, 在现实场景中, hDM 并不是解决数据最小化背
后许多隐私问题的合适方案, 因为它并不为那些数据已经被收集的个体客户提供隐私保护.
● 垂直数据最小化 (vDM): 主要通过在特征层面对数据进行删减以减少数据集的大小, 在部分论文中也称其
为广度型数据最小化. 类似前文将数据集在二维平面上展开, 垂直数据最小化的过程即是减少数据字段或数据特
征的过程. 举例而言, 一条用户数据中可能包含性别、年龄、种族、信仰等敏感信息, 部分信息对于任务目标无
效, 根据数据最小化原则应进行删减. 相比于水平数据最小化, 垂直数据最小化更加贴合现实场景, 在近几年得到
越来越多的关注. Ganesh 等人 [7] 首次对垂直数据最小化中涉及的个性化特点 (对某个人无关紧要的信息可能对另
一个人至关重要) 进行理论与实验分析, 对机器学习任务的数据最小化进行了形式化. Staab 等人 [8] 则提出了一种
基于数据泛化的新型垂直数据最小化工作流程, 通过引入对抗场景量化隐私风险. 此外, 他们同时提出一系列基

