Page 320 - 《软件学报》2026年第1期

P. 320

刘立伟等: 数据要素流通全流程隐私关键技术: 现状、挑战与展望 317

4.2 集中式忘却学习
集中式忘却学习主要研究在中心化场景下消除原始数据对机器学习模型的影响. 根据消除影响的精确度, 集
中式忘却学习研究可以分为精确忘却学习 (exact unlearning) 和非精确忘却学习 (inexact unlearning).
● 精确忘却学习: 精确忘却学习的基本思想是通过朴素的重新训练新模型的方式, 精准移除用户数据对模型
的潜在影响. 但是前文中分析提到重训练的方式效率低下, 对存储资源和计算资源要求高, 因此该方向的研究围绕
如何提升重训练的效率展开. 目前精确忘却学习的普遍操作是通过数据集和模型的划分对原始机器学习流程进行
转换, 即将数据集划分为多个子集, 分别用于多个子模型的训练, 最后集成子模型的知识得到最终模型 [78,79] , 忘却
学习过程中只需要重新训练包含被删除数据的子模型即可. 这种分片和转换的思想极大降低了重训练的计算和存
储成本, 但是在大量数据被删除时, 仍然不可避免地要重新训练多个子模型, 因为被删除数据并不总是在同一个数
据子集中. 目前精确忘却学习的代表成果是 SISA [78] , 通过对完整数据集的分片操作, 并利用分片数据对子模型进
行训练, 进行数据擦除时仅需要重新训练包含被删除数据的分片.
● 非精确忘却学习: 非精确忘却学习则是希望通过对已训练模型的直接操作移除数据样本的影响. 其基本思
想是通过其他技术手段如修改损失函数等拉近直接消除后的模型与重新训练模型在概率分布上的差距. 不同于精
确忘却学习基于定义的等价性, 非精确忘却学习需要通过精准评估数据对模型的贡献才能判断采取何种方式进行
相应地消除. 非精确忘却学习的方法可以进一步分为基于理论路线和基于实验路线. 基于理论路线的研究尝试通
过严格的统计定义保证消除模型和重训练模型间的近似关系, 其常见的方式有影响函数 (influence function) 和认
证移除 (certified removal). 前者的思路是利用影响函数可以估计某个数据点对模型参数的影响量, 根据计算结果
对模型参数进行调整, 以消除特定数据点的影响; 后者则是一种类似于差分隐私的忘却学习技术 [80,81] , 例如 Guo
等人 [80] 提出的 ε- 非精确忘却学习. 其参考差分隐私中对概率分布不可区分的定义, 提出忘却学习应确保消除前后
的模型必须是 ε- 不可区分的. 基于经验路线的方法则是结合辅助技术的直观经验, 常见的策略包括知识蒸馏 [82] 、
反向训练和随机训练的忘却学习. 以知识蒸馏为例, 知识蒸馏技术已有大量研究表明其可以实现教师模型和子模
型间的知识传递. 类似地, 在忘却学习中可以尝试利用知识蒸馏的方式高效地训练消除后的模型. 基于经验路线方
法简单直观且有效, 但是普遍需要进一步的恢复模型性能操作.
4.3 联邦忘却学习
数据流通过程中不同主体之间的数据传递不可避免, 研究分布式环境下的忘却学习有其独特的学术与应用价
值, 近年来, 愈来愈多的研究者将目光投向该领域. 联邦忘却学习关注分布式环境即联邦学习设置下的忘却学习技
术. 在前文中的联邦学习介绍中可以得知, 联邦学习中的每个客户端通过传递参数而非原始数据的方式实现模型
的联合训练, 以防止用户隐私的直接泄露. 因此, 相较于集中式的忘却学习, 联邦忘却学习的数据集访问权限受限,
服务器无法接触到客户端的原始数据. 为解决这一问题, 目前联邦忘却学习的主要方法是通过评估上传参数而非
数据的贡献来消除特定客户端对训练模型的影响. 根据数据擦除粒度的不同, 联邦忘却学习可以细分为客户端级
别 (client-level)、样本级别 (sample-level) 和类型级别 (class-level), 其工作机理如后文图 5 所示. 客户端级别指在
学习过程中删除一个客户端的所有数据, 代表工作是 FedEraser [80] . 其在联邦学习的过程中建立每一轮迭代的更新
索引, 从而在重新训练的过程中进行快速校准. 样本级别则是关注消除客户端中单个样本或部分数据集样本, 代表
工作是 Liu 等人 [83] 利用一阶泰勒近似提出的忘却学习算法, 利用费舍尔信息矩阵 (Fisher information matrix, FIM)
以低成本近似海森矩阵 (Hessian matrix), 忘却学习过程中需要梯度减去该近似矩阵. 类型级别则是研究如何选择
性地删除某个类别的数据. 其代表工作是文献 [84], 其发现卷积神经网络每个通道对不同类别的影响不同, 并用一
种称为 TF-IDF 的度量指标来量化通道的类别区分度, 通过剪枝具有高 TF-IDF 分数的通道实现消除某一类别数
据的目的.
4.4 未来挑战
忘却学习领域目前仍然存在以下挑战: 一是忘却学习中可能带来的性能损失问题, 执行数据擦除后模型性能
往往会出现一定程度的下滑, 如何在消除数据影响的同时保证模型性能不会出现大幅下降仍然需要不断的优化工

315 316 317 318 319 320 321 322 323 324 325