Page 326 - 《软件学报》2025年第5期

P. 326

2226 软件学报 2025 年第 36 卷第 5 期

出, MGA 攻击效用大幅度下降, 后处理方法降低目标项目频率估计增加值效果较好. 对于 RPA 攻击和 RIA 攻击,
采取后处理方法后攻击整体效用也比原始攻击效用小. 我们注意到, 子集选择机制 RPA 攻击经过后处理之后, 攻
击效用变为负值. 由于未对攻击前的估计频率进行后处理, 仅对攻击后的估计频率进行后处理, 因此, 当攻击效用
比较小的时候, 可能出现目标项目后处理之后的估计频率之和小于攻击前估计频率之和, 即后处理攻击效用为负值.

表 6 后处理攻击效用

攻击类型原始的攻击效用后处理的攻击效用差值
子集选择机制RPA 0.001 9 –0.000 9 0.002 8
子集选择机制RIA 0.083 7 0.019 5 0.064 2
子集选择机制MGA 2.645 8 0.355 3 2.290 5
环机制RPA 0.003 1 0.001 9 0.001 2
环机制RIA 0.080 3 0.025 2 0.055 1
环机制MGA 2.868 2 0.439 3 2.428 9

5.2 限定阈值方法

限定阈值方法仅适用于防御子集选择机制伪数据攻击. 子集选择机制中, 用户向服务器发送长为 d 的二进制
向量, 对所有用户发送的二进制向量, 服务器统计向量中每个位出现 1 的次数. 进一步, 本文设置阈值 τ . 如果某个
位出现 1 的次数高于阈值 τ , 对该位进行标记. 被标记的位对应的项目视为攻击者选择的目标项目, 同时将含有所
有标记项目的用户视为假用户, 排除假用户的扰动数据后再次计算目标项目的频率估计值, 更加接近真实的频率
估计值. 该方法具有一定的局限性, 在用户数据服从均匀分布的情况下, 防御效果更好.
实验评估了限定阈值方法的有效性, 采用 SynData 数据集, 参数设置和第 4.1 节相同. 真实用户人数 n = 10000 ,

假用户人数 m = 1000 , 每个用户从数据域的 100 个数据中选择 27 个数据进行提交. 实验首先进行采样, 随机选取
用户总人数 20% 的扰动数据, 统计每个项目出现的次数. 根据估算, 每个项目平均出现 (10000 + 1000) × 20% × 27 ÷
100 = 594 次, 因此阈值要略高于该值. 实验中, 间隔选取阈值来测定不同阈值下的防御效果. 在筛选出含有标记项
目的假用户后, 排除假用户计算目标项目的频率估计值和攻击效用. 图 9 显示了设置不同阈值时, 子集选择机制
MGA 攻击效用的变化, 可以看出随着阈值增大, MGA 攻击效用减小, 当阈值大于 640 后, MGA 攻击效用可降为 0,
限定阈值防御方法效果较好.
进一步, 本文还对比了子集选择机制 MGA 攻击下无防御、后处理、限定阈值方法的防御效果, 图 10 显示了实
ε 变大, 无防御时攻击效用减小, 后处理和限定阈值两种防御方法均能将攻击效
验结果. 可以观察到, 随着隐私预算
用降低至较小水平, 防御效果较好. 并且, 限定阈值防御方法能够将攻击效用下降至接近 0, 防御效果优于后处理.

3.0 3.0
无防御
限定阈值
2.5 2.5 后处理
2.0 2.0
Gain 1.5 Gain 1.5

1.0 1.0
0.5 无防御 0.5
限定阈值
0 0
620 625 630 635 640 645 650 1 2 3 4 5 6
τ ε
图 9 限定阈值防御结果图 10 防御结果比较

321 322 323 324 325 326 327 328 329 330 331