Page 322 - 《软件学报》2026年第1期
P. 322

刘立伟 等: 数据要素流通全流程隐私关键技术: 现状、挑战与展望                                                 319


                    除深度伪造领域之外, 近年来伴随着大模型技术的发展, 图像生成领域中的内容安全问题得到广泛关注, 例如
                 扩散模型微调攻击       (diffusion finetuning attack). 恶意攻击者可以利用高效的算法微调预训练的扩散模型, 使其能够
                 从社交网络中非法提取信息. 基于窃取的信息, 攻击者可以合成未经授权的图像, 例如伪造指定人物制作色情图
                                       [89]
                 像, 典型微调算法包括      LoRA , DreamBooth [90]  等. 为防止图像生成的滥用, 研究者尝试通过在图像分享之前添加不
                                                                                            [92]
                                                                                  [91]
                 可察觉的保护噪声, 使得在这些图像上微调             DFA  难以有效模仿它们, 代表工作有        Glaze 、AdvDM 和    Pretender .
                                                                                                      [93]
                    ● 大模型数据隐私: 大模型技术是人工智能领域的重要研究分支, 其强大的能力为构建通用人工智能体奠定
                 基础. 但是, 大模型的技术特性也引发了全新的隐私挑战.
                    一是大模型记忆性加剧了数据泄露风险. 大模型的训练过程中包含大量的用户隐私数据, 恶意攻击者可以通
                 过模型的输出或中间信息开展逆向工程, 还原原始文本, 并从中提取敏感信息. 大模型的记忆性导致数据隐式地嵌
                 入模型之中, 难以通过传统方法进行遗忘, 加剧了隐私泄露风险. 针对大语言模型的隐私泄露攻击主要包括嵌入向
                 量反转攻击    (embedding inversion attack) [94,95] , 成员推理攻击  (membership inference attack) [96] 和属性推理攻击
                 (attribute inference attack) [97,98] . Liu  等人  [99] 指出大语言模型中的嵌入  (embedding) 向量存储了丰富的文本数据表示,
                 捕捉了语义和句法属性, 需要妥善保护以防止反转攻击.
                    二是数据多元化对隐私防护机制提出新挑战. 出于商业价值和数据隐私的考量, 大部分领先的大模型仅提供
                 API 接口, 并不公布模型具体架构和参数. 因此, 模型架构和模型数据可被认为是一种新形式的商业数据资产. 现
                 有研究表明, 仅通过      API 接口, 攻击者可以通过查询系统并从查询结果中学习, 将部署的机密模型的参数或功能复
                 制到提取的替代模型中, 即模型提取攻击             (model extraction attack) [100,101] .
                    三是数据动态性引发的长期风险. 持续学习是人工智能中智能实现的关键技能之一. 大模型在持续学习的过
                 程中吸纳大量数据, 模型能力也在发生动态变化. 已有研究表明, 通过精心设计的数据或提示词, 可以诱使模型绕
                 过安全对齐机制, 输出训练数据中的敏感内容如用户的身份信息、联系方式, 典型攻击方式包括越狱攻击                                  [102,103] 、
                 提示词注入攻击      [104,105] . 如何平衡大模型的记忆与遗忘, 不仅是实现大模型训练降本增效的需求, 同时也是缓解大
                 模型数据泄露风险的重要保证.
                  6   总 结

                    伴随着   AIGC  研究浪潮的兴起, 用户数据被大规模收集、存储和处理, 数据市场日新月异. 如何在数据要素流
                 通过程中妥善保护用户数据隐私成为监管者和数据服务提供商密切关心的问题. 不同于传统隐私计算类综述, 聚
                 焦于数据流通过程单个环节的隐私问题, 本文依据数据全生命周期和技术兼容性, 将数据流通全过程分为                                  3  个阶
                 段, 内容全面涵盖各阶段的传统与新兴隐私研究领域, 总结各领域的最新研究进展与未来挑战. 表                             3  中对  3  个阶段
                 中的隐私关键技术的适用场景、优缺点以及主要挑战进行全面总结与横向对比.
                    本文首先对数据流通全流程中存在的隐私风险进行分阶段阐述, 初步介绍应对各类隐私风险的前沿技术研
                 究. 数据流通前主要包含数据收集和预处理的过程. 在这一部分, 本文一方面对数据最小化原则这一新兴研究领域
                 进行了系统分析, 并对这一法规在具体实施过程的难点进行了深入分析, 总结目前研究热点与进展; 另一方面, 针
                 对数据水印技术, 本文依据水印生成算法的技术基础, 将其进一步细分为传统水印, 模型无关水印和模型相关水
                 印, 并主要对近年来基于深度学习的水印研究成果进行梳理总结. 数据流通环节, 本文从密码学、合作学习、区块
                 链等视角出发, 对各视角下的研究子领域进行梳理, 涵盖个性化联邦、区块链数据流通安全等多项热点话题. 数据
                 流通后这一环节最易被各方忽视, 本文以忘却学习为切入点, 对传统的集中式场景和分布式情形进行单独剖析, 建
                 立全新的分类体系, 总结研究痛点, 梳理最新成果. 最后, 结合当今人工智能技术的飞速发展, 本文从数据流通的角
                 度剖析人工智能时代下全新的数据隐私挑战, 包括生成式                  AI 安全与大模型数据隐私.
                    现有的相关综述对于数据流通过程中的隐私技术介绍相对孤立, 易导致多种技术间的不兼容, 造成不必要的
                 人力物力浪费. 从隐私计算发展角度而言, 既需要研究者在隐私计算子领域深入挖掘, 培养专业性人才, 也需要研
                 究者从数据流通的角度, 总览全局. 本工作是以数据流通为载体, 隐私技术为对象的综述类论文, 内容涵盖数据最
   317   318   319   320   321   322   323   324   325   326   327