Page 305 - 《软件学报》2026年第1期
P. 305

302                                                        软件学报  2026  年第  37  卷第  1  期


                 fields.  It  enables  researchers  to  quickly  develop  a  systematic  understanding  of  privacy  technologies  across  the  data  circulation  process  and
                 lays a foundation for establishing a comprehensive full-process data circulation protection paradigm for future research.
                 Key words:  data circulation; digital watermarking; federated learning; blockchain; unlearning

                    数据要素, 作为数字经济时代的第           5  大生产要素, 近年来已然成为推动社会进步和经济增长的关键资产. 培育
                 数据要素市场, 加快数据要素流通交易, 赋能数字经济发展成为各国共识. 过去几年里以大语言模型为代表的数据
                 驱动型   AIGC  技术的兴起, 更是引起了全世界研究者的广泛讨论. AIGC              技术的应用横跨文本、图像到音频等多个
                 领域, 深刻改变了现代社会的内容生产模式, “数据即价值”的观念深入人心. 但是层出不穷的“数据犯罪”, 让用户
                 数据隐私安全面临严峻挑战.
                    事实上, 为加强数据犯罪打击力度, 保障用户数据隐私, 各国政府早已从立法层面采取相关措施. 例如欧盟理
                 事会于   2016  年  4  月通过, 并在  2018  年  5  月开始强制实施的《通用数据保护条例》(general data protection
                 regulation, GDPR), 首次从法律层面对数据流通全流程中所应遵守的行业规范进行了严格规定. 在该条例生效后,
                 欧盟向谷歌和脸书两大知名互联网公司分别发起                 39  亿欧元和  37  亿欧元的罚款诉讼, 在数据安全领域产生深远影
                 响. 在这之后, 美国的《统一个人数据保护法》(UPDPA)、我国的《中华人民共和国数据安全法》《中华人民共
                 和国个人信息保护法》等多部数据保护法规相继出台, 一定程度上遏制了数据犯罪的发生.
                    在技术层面上, 隐私计算        (privacy computing) 技术在过去的几十年里飞速发展, 不仅全同态加密、安全多方
                 计算等密码学技术在可用性等方面取得可观进展, 近年来逐渐兴起的联邦学习、数字水印、忘却学习等多个领域
                 研究也取得显著成果. 隐私计算这一概念最早由李凤华等人                   [1] 提出, 将其定义为“面向隐私信息全生命周期保护的
                 计算理论和方法”. 隐私计算研究发展至今, 已经形成了横跨密码学、大数据、机器学习、计算机体系结构、联邦
                 学习等多个领域的综合性研究体系, 为数据安全流通提供可靠保障. 此外, 隐私计算中“数据可用不可见”“不共享
                 数据, 而是共享数据价值”的理念对数据安全领域研究产生深远影响.
                    虽然隐私计算的定义中强调了其范围涵盖隐私信息全生命周期, 但是现有的隐私计算相关综述在对相关技术
                 进行总结时, 或是因为提出时间过早而缺少对新兴技术如数据最小化原则的介绍                          [1] , 缺少实时性; 又或是围绕隐私
                 计算中子领域进行归纳整理          [2−4] , 并未涵盖数据全生命周期, 技术介绍相对孤立. 从隐私计算发展角度而言, 既需要
                 研究者在隐私计算子领域深入挖掘, 培养专业性人才, 也需要研究者从数据流通的角度, 总揽全局, 为建立完备的
                 全流程数据流通隐私保护范式而努力. 后者在目前的研究中显得尤为稀缺.
                    数据流通一般是指数据在不同主体之间进行共享、传递和交换的过程. 其实现了不同系统之间的数据互通,
                 促进信息共享和协作, 是跨系统、跨组织的数据应用和分析的重要基础. 现有数据隐私研究的研究对象普遍关注
                 的是数据流通中的信息共享, 对于数据流通前的数据收集或是数据流通后的数据治理等问题关注较少. 但是根据
                 工业实践经验, 上述所提到        3  个阶段在实践层面普遍存在且互不矛盾, 在隐私性能层面互为补充, 如联邦学习中同
                 态加密技术常用于梯度信息传递过程中. 因此, 建立全流程的数据流通隐私保护范式有其独特的研究价值.
                    本文依据数据全生命周期以及不同阶段间的技术兼容性, 将数据流通全流程划分为前、中、后这                                  3  个阶段,
                 并针对每个阶段所涵盖的隐私关键技术最新研究进展进行系统的分类整理, 对不同领域的研究热点与未来挑战进
                 行深入剖析. 数据流通全流程隐私关键技术框架如图                 1  所示.
                    数据流通前这一阶段主要包含数据生命周期中的数据收集和预处理环节, 是数据流通不可缺少的环节. 该领
                 域在隐私计算研究初期相对其他阶段易被忽视, 但是伴随数据最小化原则, 数据溯源、数据所有权、模型所有权
                 等诸多问题的发现, 越来越多的研究者将目光转向该阶段. 本文将从数据最小化原则、数字水印技术两方面对该
                 阶段进行系统分类与整理. 数据最小化原则要求数据采集者仅收集、处理为实现特定目的所必需的数据量, 从数
                 据采集阶段避免了数据滥用的可能性, 但是如何实现其从法律定义到技术定义的转变需要更为细致的研究. 数字
                 水印技术则是通过在数据中嵌入不可见的标识信息, 防止未经授权的复制和分发, 一方面解决了数据溯源问题, 另
                 一方面验证了数据的完整性和真实性. 数据流通阶段涵盖数据分析、应用环节, 本文依据技术类型进行分类, 从基
                 于密码学技术、基于合作学习技术、区块链技术这                  3  个方向进行归类整理. 具体来说, 同态加密、安全多方计算、
   300   301   302   303   304   305   306   307   308   309   310