Page 316 - 《软件学报》2025年第5期
P. 316
2216 软件学报 2025 年第 36 卷第 5 期
P f = E[P[z ∈ C v |x ]] = w (9)
′
根据真实覆盖概率 P t 和虚假覆盖概率 P f , 可以得到 z 在 x 的覆盖区域 C v 的概率 P[z ∈ C v ] :
(10)
P[z ∈ C v ] = f x · P t +(1.0− f x )· P f
其中, f x 表示项目 x 的频率, x ∈ {1,...,d} P[z ∈ C v ] 表示用户提交的扰动数据 z 在区域 C v 内的概率, 将 P[z ∈ C v ] 记为
.
˜ . 项目 ˆ 如下:
f x ˜ , 数据收集方可以根据用户发送的数据直接统计得到 f x x 的估计频率 f x
˜
ˆ
f x = f x − P f (11)
P t − P f
可以验证估计值 f x ˆ 是真实项目分布 f x 的无偏估计:
[ ]
˜
[ ] ˜
[ ] f x − P f E f x − P f f x P t +(1− f x )P f − P f
ˆ
E f x = E = = = f x (12)
P t − P f P t − P f P t − P f
1 1 1
w = P t = P f = , 因此总方差为:
环机制处理类别数据时, 覆盖参数 , 可以得到 和
1+e 2 1+e
ε ε
˜
( )
∑ d ( ) ∑ d f x − P f 1 ∑ d ( )
ˆ
Var f x = Var = Var f x ˜
x=1 i=1 P t − P f (P t − P f ) 2 x=1
1 ∑ d [ ]
= f x P t (1− P t )+(1− f x )P f (1− P f )
(P t − P f ) 2 x=1
1 [ ]
= P t (1− P t )+(d −1)P f (1− P f )
(P t − P f ) 2
4de ε
= 1+ (13)
ε
(e −1) 2
2.4 问题定义
本文中, 假设攻击者可以向 LDP 机制中注入一些假用户, 这些假用户可以向数据收集方发送伪造的扰动数
据, 如图 2 所示. 这一攻击具有现实意义, 它可以提高非频繁项目的频率, 改变 top-k 频繁项集, 造成安全威胁. 例
如, Chrome 浏览器根据用户的浏览量和评分推荐流行主页, 攻击者通过在数据收集过程中注入伪造数据来发起伪
数据攻击, 将某钓鱼网站推荐为流行主页, 造成信息泄露的安全隐患; 或者在导航软件中, 系统统计来自用户的路
线评分以提供更好的服务, 攻击者向系统发送大量伪造数据, 例如, 为某路况较差的低评分路线发布大量高分评
价, 将其推荐为高评分路线, 导致用户体验不佳.
伪造假用户
攻击者
伪造的扰动数据
用户1
扰动数据
扰动数据
用户2 聚合估计
扰动数据 数据收集方
用户n
图 2 本地差分隐私伪数据攻击模型
假设系统中的真实用户人数为 n, 攻击者注入 m 个假用户, 因此用户总人数变为 n+m. LDP 机制在用户端执
行编码和扰动步骤, 攻击者可以获得 LDP 机制的关键细节, 例如, 用户数据域 [d]、扰动值的支持集. 攻击者的目
标项目集 T 包括 r (1 ⩽ r ⩽ d) 个项目, 表示为 T= {t 1 ,t 2 ,...,t r } . 攻击者的目标是尽可能大地增加集合 T 中每个项目
的频率估计值, 因此攻击者精心制作从假用户发送到数据收集方的扰动值. 用 Y 表示假用户的扰动值集合, Y 的每
y i 是攻击者为假用户 y i 可以是集合 (如子集选择机制), 也可以是元组 (如环机制).
个元素 i 伪造的扰动值. 扰动值
ˆ
f t 表示目标项目 ˆ f t,b 分别表示攻击前和攻击后 LDP 机制对目标项目 t 的频率估计
假设 t 的真实频率, f t,a 和