Page 317 - 《软件学报》2025年第5期

P. 317

王源源等: 本地差分隐私频率估计伪数据攻击及防御方法 2217

值, 目标项目 t 的频率增加值表示为:

ˆ
ˆ
ˆ
∆ f t = f t,b − f t,a , ∀t ∈ T (14)
ˆ
频率增加值 ∆f t 越大, 表示攻击越成功.
攻击的整体效用 G 定义为目标项目的频率增加值期望的总和, 即:

∑
ˆ
G(Y) = E[∆ f t ] (15)
t∈T
攻击者的目标是制作扰动值 Y 以最大化整体效用 G.

3 本地差分隐私攻击方法
LDP 协议伪数据攻击常用方法包括随机扰动值攻击 (random perturbed-value attack, RPA)、随机项目攻击
(random item attack, RIA) 和最大效用攻击 (maximal gain attack, MGA) 这 3 类. RPA 和 RIA 是两个基线攻击. 在
RPA 中, 每个假用户从用户数据域中随机选择一个值, 将该值发送给数据收集方. RIA 考虑了目标项目, 每个假用
户从目标项目集中随机选择一个目标项目, 按照扰动规则对该项目进行扰动, 将扰动后的值发送给数据收集方.
MGA 的思路是将针对特定目标项目集的攻击转换为最优化问题, 为假用户精心设计扰动值, 使攻击效用最大化,
需要结合具体的 LDP 机制进行设计和构造.
子集选择机制和环机制是具有最优效用的 LDP 协议频率估计方法. 相对于其他 LDP 频率估计机制, 在相同
隐私保护等级下, 这两种频率估计方法计算结果的准确度更高. 然而, 目前尚缺少对子集选择机制和环机制的伪数
据攻击, 对它们受伪数据攻击的影响程度缺少深入分析. Cao 等人 [15] 评估了伪数据攻击对 kRR、OUE 和 OLH 的
频率估计的有效性, 然而他们的主要攻击方法 MGA 具有针对性, 并不适用于子集选择机制和环机制. 因此, 本文
设计了针对子集选择机制和环机制的伪数据攻击. 本文首先在子集选择机制和环机制上进行了 RPA 和 RIA 攻击,
评估了攻击效用; 然后, 根据子集选择机制和环机制的特点, 设计了针对这两种机制的 MGA 攻击, 并利用所提攻
击方案深入评估了伪数据攻击对子集选择机制和环机制的影响.

3.1 子集选择机制攻击方法

3.1.1 RPA 攻击
每个假用户生成一个长度为 d 的二进制向量, 该向量初始为零向量. 攻击者控制的每个假用户从用户数据域
{1, 2,…, d}中随机选择 k 个值, 即在用户的二进制向量中, 被选中的 k 个值的对应比特设置 1. 这样, 攻击者就伪造
了一个随机扰动项目, 假用户将伪造的二进制向量发送给数据收集方. 在 RPA 中, 假用户发送给服务器的数据服
从均匀分布, 其将作为参照组, 用来与其他攻击进行对比.

3.1.2 RIA 攻击
RIA 考虑到了攻击者选择的目标项目集 T. 为了提高集合 T 中项目的频率, 攻击者控制每个假用户从集合 T
中随机选择一个项目 t 作为该假用户所持有的项目. 然后, 以公式 (2) 中概率 p 来确定是否向服务器提交项目 t .
[d]\{t} 表示从用户数据域 [d] 中除去项目 t 后剩余项目的集合. 如果用户提交项目 t, 则从 [d]\{t} 中随机选择 k–1
[d]\{t} 中随机选择 k 个项目一并传输给数据收集方.
个项目一并传输给数据收集方. 如果用户未提交项目 t , 则从

3.1.3 MGA 攻击
MGA 通过解决以下优化问题来生成每个假用户的扰动值:

argmaxE[F y (t)],
i
其中, y i 是用户 i 发送给服务器的扰动值, 在子集选择机制中, y i 的表示形式为二进制向量, 其中包含且仅包含 k
个 1. F y (t) 是计数函数, 当 y i 支持项目 t 时, 即 y i 中项目 t 对应的位值为 1, F y (t) 输出 1, 否则输出 0. 通过最大化
i i
E[F y (t)] 可以最大化攻击效用, 这将在第 3.2 节详细阐述.
i
对于子集选择机制, 考虑 r ⩽ k 和 r > k 两种情况.
(1) 当 r ⩽ k 时, 为了使目标项目频率增加值之和最大, 每个假用户向数据收集方发送的 k 个值中包含所有的

312 313 314 315 316 317 318 319 320 321 322