Page 489 - 《软件学报》2025年第7期
P. 489
3410 软件学报 2025 年第 36 卷第 7 期
表 1 主要符号
环境监测
工人 1 服务器 变量 变量描述
M 工人数
工人 2 N 任务数
智慧交通
w s 第s个工人的权重
... x n s 第s个工人关于第n个任务的感知数据
∗ 第n个任务的真值
x n
发起者 U 工人集
工人 M
T 任务集
图 1 本文问题场景 ˆ x n ∗ 噪音真值
s′ s
x n 对应的带噪值
x n
做了第n个任务的用户集合
U n
,
d 2 d 1 某任务取值的上下界
y n 第n个任务的重要性
3 NATURE 算法
3.1 算法概述
一种直观方法是调用文献 [26] 的方法采样一部分数据来加噪并进行真值发现, 然而, (1) 该方法并不鲁棒, 很
容易受到异常值的影响. (2) 未被采样到的工人可能是高质量工人. (3) 某些任务可能只被少量工人做过, 如果这些
值未被采样到, 那么就无法得到这些任务对应的“真值”, 进而导致真值发现的失败.
为了提升得到的噪音“真值”效用, 本文需要去掉异常值, 从而降低这些值对“真值”精度的负面影响. 为此, 本
文提出 NATURE 算法, 该算法的主要思想是考虑数据中蕴含的噪音模式来对 Laplace 机制保护后的数据自适应
地剪枝之后进行非隐私的真值发现. 特别地, 在 NATURE 中, 根据工人上传的加噪数据, 本文提出一种噪音感知的
方法来求得工人的质量和任务的重要性 (noise-aware weight and importance estimation, NWIE) 从而为剪枝提供支
持. 由于所提方法是噪音敏感的, 因此使得 NATURE 不容易受到异常值的影响. 再者, 本文提出一种根据工人的质
量、任务的重要性和 LDP 下真值发现的总体误差的效用感知的自适应剪枝方法 (utility-aware adaptive pruning,
UAP) 来进行剪枝, 使得 NATURE 能保留高质量的工人和任务数据, 从而得到每个任务的“真知”且求得的噪音“真
值”精度较高. 如图 2 所示, 该算法主要包含如下阶段.
NWIE
...
...
w 1 y i w y j ... w s y n
+Noise 2
CRH
ˆ x *
UAP
t 1
t 2
... …
t N
t i
图 2 NATURE 整体流程
阶段 1. 工人调用 Laplace 机制上传加噪数据给服务器;
阶段 2. 服务器根据加噪数据调用 NWIE 估算工人的质量和任务的重要性以及任务的初步真值;
阶段 3. 服务器根据工人的质量和任务的重要性调用 UAP 进行剪枝, 从而留下高质量和对真值发现重要的
数据;
阶段 4. 服务器根据剪枝后的数据和任务的初步“真值”调用 CRH 得到每个任务的噪音“真值”, 并提交给移动
群智感知的发起者.

