Page 499 - 《软件学报》2025年第7期

P. 499

3420 软件学报 2025 年第 36 卷第 7 期

为了评估隐私保护前后权重分布变化, 采用 KL-Divergence 来衡量隐私保护前后的权重变化, 其中 w 和 w 分
′
别是隐私保护前后的权重.

∑ p(w)
′
KL(w∥w ) = p(w)log (43)
q(w )
′
[7]
为了进一步评估初始值对结果的影响, 求得收敛时候的迭代次数, 使用如下收敛目标值 J :

M ∑ N ∑
)
( ∗ 2
J = w s x − ˆx (44)
s′
n n
s=1 n=1
使用 Apple MacBook Pro 搭建所有的实验环境, 硬件信息为 MacOS monterey 系统、Apple M1 Pro、32 GB 内
存、1 TB 固态硬盘. 所有实验采用 Python 3.7 来编写. 特别地, 迭代停止阈值 τ = 0.001, 默认 ε = 0.5.

5.3 对比方法
根据对相关工作的分析, 本文发现现有方法无法直接用来解决本文所提出的研究问题, 为了验证所提方法的
有效性, 将其与以下最新成果进行对比.
(1) VarFil: 该方法首先对工人的感知数据进行加噪, 然后根据噪音数据清除掉所有感知数据中方差位于 3σ 之
外的值 (variance filtering, VarFil), 然后用剩下的数据进行真值发现.
(2) TLayer [23] : 该方法首先从一个预定义的分布中采样一个值作为方差, 然后将该方差作为均值为 0 的高斯分
布中的方差并从该分布中对原始数据加噪, 最后服务器运行非隐私的真值发现算法来得到每个任务的真值, 该方
法满足的是 (ε,δ) -LDP.
(3) PairsTD [25] : 该方法以 TLayer 方法为基础, 在此基础上聚合激励来降低上传值中的噪音量, 最后服务器运
行非隐私的真值发现算法来得到每个任务的真值, 该方法满足的是 KL-LDP.
(4) PrivTDSI [26] : 该方法首先采样一部分数据, 然后对这部分数据进行加噪并上传, 根据上传后的加噪值推断
未被采样到的值, 最后服务器运行非隐私的真值发现算法来得到每个任务的真值, 该方法严格满足 LDP.
(5) TESLA [27] : 该方法根据注入的噪音类型设计了噪音的过滤机制, 根据过滤后的噪音值进行非隐私的真值发
现, 该方法严格满足 LDP.

5.4 对比实验
(1) ε 的影响
图 3 所示是 NATURE 和对比算法在不同隐私预算下的效果对比, 图 3(a) 和图 3(b) 分别对应 Pop 和 For 数据
集. 可以看出, 随着 ε 的增加, NATURE 算法始终表现最好, 相对于最新的 TESLA 算法, 至少提升 20% 的精度. 这
是因为在 NATURE 算法中, 本文预先自适应地剪枝掉了数据集中的异常值信息, 保留下来的是高质量信息. 显然
在高质量信息上进行真值发现能得到精度较高的噪音“真值”. 尽管 VarFil 根据噪音方差去掉了一定的大的带噪
值, 从而一定程度了抑制了误差传播. 然而一方面这些值可能来自稀疏任务, 进而导致真值发现失败, 另一方面他
们可能对最终的“真值”有较大的正面影响, 直接剔除会降低“真值”的效用. 在其他对比算法中, 尽管研究者们采用
了一系列方法来提升噪音“真值”的精度, 但是这些研究建立在数据是完全纯净的基础上或者预先在非隐私下对数
据进行了预处理, 因此在实际中的表现较差. 特别地, TLayer 和 PairsTD 仅满足弱化的 LDP 保障, 即便是在这样的
隐私放松下, NATURE 算法的精度仍然显著高于他们.
(2) 对权重分布的影响
由于权重在真值发现过程中处于主导地位, 在这部分的实验中, 本文验证所求得的噪音权重分布和真实权
重分布的差距, 实验结果如图 4 所示. 图 4(a) 和图 4(b) 展示了 KL-Divergence 的结果, 图 4(c) 和图 4(d) 是在数据
集中随机挑选的 8 个工人的真实权重值和噪音权重值的对比情况, 横坐标 ID 代表工人的编号, 纵坐标代表工
人的权重值. 再者, TW (true weight) 代表非隐私下的真实权重, EW (estimated weight) 代表本文算法估计得到的
权重.
如图 4(a) 和图 4(b) 所示, 根据 NATURE 求得的权重分布和真实分布的 KL-Divergence 一直较小, 这说明根

494 495 496 497 498 499 500 501 502 503 504