Page 485 - 《软件学报》2025年第7期

P. 485

3406 软件学报 2025 年第 36 卷第 7 期

3
(State Key Laboratory of Networking and Switching Technology (Beijing University of Posts and Telecommunications), Beijing 100876,
China)
4
(College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China)
5
(College of Computer and Data Science, Fuzhou University, Fuzhou 350108, China)
6
(School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China)
7
(School of Mathematics, Physics and Computing, University of Southern Queensland, Toowoomba 4350, Australia)
Abstract: To conduct necessary aggregation on varying-quality sensed data uploaded by workers in mobile crowdsensing, truth discovery
technology has emerged as the cornerstone for providing precise data support for subsequent applications. Existing studies tend to adopt
local differential privacy for protection against potential privacy breaches, but often ignore the influence of outliers in the sensed data on
the truth discovery accuracy under local differential privacy. These outliers often have a large range of values, resulting in a large amount
of noise in the injected data. Additionally, due to workers’ concerns about privacy breaches, mobile crowdsensing servers cannot
preprocess data without privacy protection. To this end, this study proposes NATURE, which meets local differential privacy based on
adaptive pruning. The core idea of the algorithm is to consider the noise types in the data to adaptively prune all unnecessary workers’
values or certain task values. In NATURE, the noise-aware weight and importance estimation (NWIE) method based on a formalized
constraint optimization problem is designed to facilitate data pruning. Based on proving the optimal pruning problem is NP-hard, this study
designs the utility-aware adaptive pruning (UAP) method with polynomial time complexity to conduct pruning. Furthermore, a theoretical
analysis of NATURE’s privacy, utility, and complexity is carried out. Experimental results on two real-world datasets and one synthetic
dataset demonstrate that NATURE achieves an accuracy improvement of at least 20% in obtaining “truth” compared to its comparative
algorithms.
Key words: mobile crowdsensing (MCS); truth discovery; privacy protection; local differential privacy; adaptive pruning
随着智慧城市建设步伐的加快, 环境感知需求日益增长并呈现复杂化趋势, 移动群智感知 (mobile crowdsensing,
MCS) 技术的出现给复杂环境下的城市感知带来了更精确有效的解决方案 [1] . 通过工人间的协作, 可为诸如环境监
测、罪犯追踪以及智慧交通等提供决策支持 [2] . 相关统计显示, MCS 的部署可以降低 30%–70% 的交通事故, 减少
不必要的生命财产损失 [3] . 在 MCS 中, 感知数据的收集被外包给了一大群携带感知设备的工人, 这些工人享受
MCS 提供的服务并向 MCS 服务器提供数据以改善 MCS 的后续服务 [4] .
在 MCS 中, 不同工人设备的感知精度不同, 同时由于网络拓扑结构的影响, 数据传输环境也可能不可靠, 因
此, MCS 服务器需要将收集到的数据进行必要的聚合处理 [5] . 传统的解决方案是对感知数据求平均值. 然而, 因为
该方法平等地对待所有工人的数据, 可能导致无法得出准确的结果. 因为不同工人所感知到的数据质量差异较大,
而且每个工人的权重通常是未知的 [6] , 理想的方法应该具有捕捉差异的能力. 为应对这一挑战, 旨在从众多质量不
同的数据中发现“真值”的真值发现方法应运而生. 该方法的核心思想是如果一个工人的数据更接近“真值”, 则给
该工人分配更高的权重 [7] .
然而, 工人上传的数据中可能隐含个人的隐私信息, 比如家庭住址、身份信息等可能从上传的数据中推导出
来 [8,9] . 因此, 如果不加处理地将这些数据上传到服务器可能导致工人因为担心隐私泄露而不愿意参与到 MCS 中
来, 进而影响 MCS 系统的运行和用户对 MCS 的粘性. 为避免隐私泄露, 研究人员提出使用本地差分隐私 (local
differential privacy, LDP) 技术来保护工人的隐私 [10] , 其核心思想是数据在上传到服务器之前在本地进行扰动, 能
从根本上保护用户的隐私. 目前, LDP 技术已被应用于众多互联网巨头的产品中, 比如谷歌的 Chrome 浏览器 [11] 、
苹果的 iOS 系统 [12] 以及微软的 Windows Insiders [13] . 一种快捷、高效的实现 LDP 的典型方法是向数据中注入
Laplace 噪音 [14] . 本文也将采用 Laplace 来保护工人的数据.
在真值发现场景中, 由于主客观因素的影响, 每个工人上传的感知数据质量可能显著不同, 有些数据甚至不
可用. 从主观上来说, 实际的 MCS 系统中可能存在恶意的工人, 提交错误的值. 也可能存在女巫攻击者 (sybil
attacker) 故意提交精心构造的其他值来恶意提升自己的感知质量或者是获得 MCS 服务器的奖励 [15] ; 从客观上
来说, 有些工人可能并不知道自身传感器已失效, 也可能受周围环境以及传输网络的影响 [16] ; 非隐私下真值发
现算法也需要对数据做预处理 [6,7] . 真值发现算法对不同数据加权聚合, “真值估计”步骤和“权重更新”步骤紧密
耦合, 在没有任何先验知识的情况下, 由于错误甚至是恶意数据的干扰, 可能导致得到的“真值”精度低或者需要

480 481 482 483 484 485 486 487 488 489 490