Page 307 - 《软件学报》2026年第1期
P. 307
304 软件学报 2026 年第 37 卷第 1 期
1 数据流通隐私风险
在大数据时代, 数据要素已成为驱动科学技术创新、经济发展增速和法制社会治理的核心资源, 其流通共享
可释放人工智能、智慧城市等领域的潜在价值. 但是, 伴随着数据要素市场化进程的加速, 数据要素在多主体、跨
领域的交互中面临严峻隐私风险. 例如人脸、医疗记录等用户敏感信息因技术管理缺陷如数据过度采集或第三方
滥用而泄露, 引发身份盗用甚至公共信任危机. 因此, 现代社会亟需在数据价值挖掘与数据流通隐私安全之间构建
动态平衡机制. 结合数据流通的 3 个阶段, 本节将对当前数据流通全流程面临的主要隐私风险进行分阶段总结.
数据流通前的隐私风险主要潜藏在数据收集、预处理与存储环节. 其一是数据过度采集造成的敏感信息泄露
问题. 数据过度采集现象在当前社会广泛存在, 企业为挖掘潜在价值往往倾向于超额收集数据, 如健康类 APP 收
集用户地理位置、通讯录等隐私信息, 而手机号等个人隐私数据的泄露 (如第三方非法交易) 可能诱发精准诈骗
等违法犯罪行为, 给个人造成巨大经济损失. 因此数据收集环节的合规性在近 10 年来得到全球政府的高度重视,
其从源头上杜绝无关敏感信息的泄露风险. 数据最小化原则是对全球数据保护法规中数据采集规范的抽象概括,
要求企业采集数据前根据使用目的确定所必需的数据量, 避免数据过度采集造成隐私泄露. 但是如何建立法律条
文到数学语言的映射, 跨越形式与实践的鸿沟是目前数据最小化相关研究的重要一环. 其二是数据脱敏不足造成
的身份信息泄露. 数据脱敏是预处理环节的标准步骤, 但是传统的脱敏方法如删除直接标识符、k-匿名等方法已
经被证明存在重识别攻击的风险. 差分隐私能够实现更强的隐私性能, 但是需要在隐私和效用之间实现权衡. 其三
是数据存储不当引发的数据泄露, 例如: 金融机构客户数据以明文形式存储于不安全服务器, 引发大规模数据泄露、
财产损失及金融诈骗. 通过加密存储或弱加密存储, 可以有效避免攻击者获取数据中的敏感信息.
数据流通中的隐私风险指数据要素在多个主体间的流转过程中由于通信协议设计缺陷、恶意中间主体、主
体行为不可控等因素引发的隐私信息泄露. 目前数据流通中的隐私风险主要包括: 一是多方协作协议的缺陷. 在涉
及多方协作如协同计算、合作学习的过程中, 不同主体间的原始数据如果进行直接传播, 极易引发法律纠纷; 因
此, 研究者尝试通过加密、传递中间信息等方式避免原始数据的直接传播. 但是, 在后续的研究中发现诸如合谋攻
击、差分攻击、成员推断攻击等攻击方式, 协议缺陷的存在引发了数据的直接或间接泄露. 为解决多方协作过程
中的隐私泄露问题, 多方安全计算、联邦学习等研究领域应运而生. 二是数据污染. 数据流通过程中, 恶意中间节
点可能通过数据篡改、注入恶意数据等方式实现攻击目的, 如在模型的训练集中添加少量精心设计的数据, 为模
型植入后门. 针对数据篡改等问题, 近年来兴起的区块链研究提供了一种可行的解决思路. 作为一种基于密码学的
分布式账本技术, 区块链在不依赖可信第三方的前提下提供可信数据. 共识协议的存在有效防止数据被恶意篡改.
同时, 区块链被认为是未来新一代的基础设施, 在数据存证、可信溯源领域极具研究价值.
数据流通后的隐私风险主要依赖于数据生命末期对残留数据清理的及时性和完整性. 其主要风险包括: 一是
第三方数据滥用. 若数据流通后期缺乏数据审计机制, 未在达成使用目的后及时清除, 数据易被第三方滥用, 如广
告商利用用户行为数据定向投放骚扰广告. 二是残留数据泄露问题. 常规存储数据可以直接删除, 主要防范的是硬
件层面的数据恢复技术. 但是在人工智能时代, 大量的用户数据被用于模型的训练中, 用户信息隐式地存储在模型
的参数当中. 当用户在退出 AI 服务的同时有权要求模型遗忘自己的隐私数据, 即被遗忘权. 如何让模型遗忘用户
信息是忘却学习的研究领域. 三是数据存证与可信溯源. 数据的可信溯源对于加强数据监管具有重要意义, 如打击
虚拟货币非法洗钱. 区块链技术的存在为数据存证和可信溯源提供了可靠的技术支撑.
在上文中我们对数据流通三阶段的主要隐私风险进行分类阐述并初步给出目前主流的解决策略, 在第 2–4 节
中将对各阶段的隐私关键技术进行系统总结. 需要强调的是, 部分技术事实上在多个阶段中均存在应用, 如区块链
在数据流通中的应用防范数据篡改, 同时在数据流通后可以实现数据的可信溯源. 为了保证文章的逻辑连贯性, 该
类技术整合在单个阶段进行阐述.
2 数据流通前
数据收集与预处理是数据全生命周期的开始, 也是数据正式进入流通前的关键环节. 伴随国家对个人信息保

