Page 319 - 《软件学报》2026年第1期
P. 319
316 软件学报 2026 年第 37 卷第 1 期
以保证安全性.
3) 基于密码学技术. 该方向主要研究通过零知识证明来实现跨链数据传输中的隐私保护. 零知识证明可以在
分布式账本上转移数字资产, 而无需透露有关发送者、接收者或资产数量的任何信息. 但是, 使用密码学工具尤其
是零知识证明来加密隐私数据需要消耗大量算力, 将对系统性能造成不可忽视的负面影响.
● 联合学习数据共享: 多参与方共同分享数据的联合学习范式在数据流通中应用广泛, 而前文中的联邦学习
正是该领域中最具代表性的技术, 但是现有的联邦学习方案普遍依赖一个完全诚实的中央服务器进行模型参数聚
合与分发, 而在现实场景中往往难以找到被所有联合学习参与方共同认可的可信第三方. 结合区块链的去中心化
特性, 部分学者尝试探索基于区块链的联合学习方案. 基于区块链的联合学习方案的核心思路是通过共识协议随
机选取某一参与方进行模型聚合, 将参数聚合结果打包上链作为区块发布, 其他参与方负责验证聚合结果. 在上述
流程中, 分布式共识机制能够避免单一中央服务器可能带来的单点故障问题, 而区块链上数据的透明性与不可篡
改性也可以杜绝第三方中央服务器恶意错误聚合的可能性. 但是, 由于区块链的透明性, 各参与方提交的梯度数据
将会被链上所有参与方可见, 一定程度上增大参与方隐私泄露的可能. 部分研究尝试通过密码学方案如差分隐私 [75]
进行保护, 但是对模型性能和运行效率上存在较大缺陷. 此外, 如何建立公平透明的参与激励机制, 排除恶意的参
与方也是一个重要问题. Kim 等人 [76] 提出了基于工作量证明共识协议的联邦学习框架, 通过出块奖励的方式将收
益分配给矿工, 而矿工再根据块内打包数据的提供方声明的样本数量与计算时间将出块奖励进行进一步分配.
3.3.3 关键挑战
● 跨链数据隐私: 跨链技术使得不同的区块链网络能够进行数据与价值的传递, 促进数据的交换与整合, 但这
同时带来了如何在不侵犯用户隐私的前提下进行数据跨链传输的挑战. 为解决这一问题, 传统的密码学技术如同
态加密、零知识证明提供了有效思路, 在不泄露具体交易信息的前提下保证了交易数据的真实性, 但是如何缓解
引入密码学技术带来的性能损失, 寻求数据跨链效率和数据隐私的平衡点有待后续研究.
● 海量数据上链效率瓶颈: 在区块链技术的快速发展过程中, 海量数据上链交易的效率瓶颈已经成为制约区
块链发展的重要问题, 特别是在金融、医疗健康记录等关键领域, 庞大的交易数量对区块链网络的处理速度和吞
吐量提出了更高的要求. 此外, 链上数据量的急剧膨胀进一步加剧了处理和存储的负担. 如何在不牺牲区块链去中
心化、不可篡改等特性的同时, 有效提高海量数据上链交易的处理效率, 成为区块链技术发展亟需解决的重要问题.
4 数据流通后
数据流通后期阶段主要关注数据生命末期的数据治理问题. 当用户因故不再需要数据服务, 该用户有权要求
服务提供商删除用户个人数据, 如删除搜索结果中与个人相关的链接, 即“被遗忘权”. 本节将围绕数据“被遗忘权”
介绍机器学习领域中的忘却学习最新研究, 建立系统分类体系, 总结忘却学习领域的研究难点和未来挑战.
4.1 忘却学习
数据“被遗忘权 (right to be forgotten)”近年来出现在世界各国的数据保护法案中, 包括欧盟《通用数据保护条
例》和美国的《加州消费者隐私法案》等. 被遗忘权指个体有权要求服务提供商删除用户个人信息. 但是在机器
学习领域, 用户个人数据的删除并非只是从公司数据库将其移除, 也应包括消除用户个人数据样本对模型的贡献,
但是直接进行重训练在复杂任务场景又将带来昂贵的训练成本. 忘却学习这一研究领域专注于从已训练模型中移
除指定样本的影响, 近年来得到众多研究者的高度关注.
直接进行重新训练是实现忘却学习的有效方法, 然而因为它需要存储整个原始数据集并从头开始重新训练模
型, 这在复杂的深度学习场景中会消耗大量的存储和计算资源, 且耗时过长, 效率低下. 因此, 研究人员尝试设计出
高效的忘却学习机制. 目前研究者发现在忘却学习设计过程中主要存在以下 3 大难点 [77] : 训练过程随机性、训练
过程的递进性和灾难性性能下降.
根据忘却学习中数据参与训练方式, 忘却学习可分为集中式忘却学习 (centralized unlearning) 和联邦忘却学
习 (federated unlearning).

