Page 485 - 《软件学报》2025年第7期
P. 485

3406                                                       软件学报  2025  年第  36  卷第  7  期


                 3
                 (State  Key  Laboratory  of  Networking  and  Switching  Technology  (Beijing  University  of  Posts  and  Telecommunications),  Beijing  100876,
                  China)
                 4
                 (College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China)
                 5
                 (College of Computer and Data Science, Fuzhou University, Fuzhou 350108, China)
                 6
                 (School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China)
                 7
                 (School of Mathematics, Physics and Computing, University of Southern Queensland, Toowoomba 4350, Australia)
                 Abstract:  To  conduct  necessary  aggregation  on  varying-quality  sensed  data  uploaded  by  workers  in  mobile  crowdsensing,  truth  discovery
                 technology  has  emerged  as  the  cornerstone  for  providing  precise  data  support  for  subsequent  applications.  Existing  studies  tend  to  adopt
                 local  differential  privacy  for  protection  against  potential  privacy  breaches,  but  often  ignore  the  influence  of  outliers  in  the  sensed  data  on
                 the  truth  discovery  accuracy  under  local  differential  privacy.  These  outliers  often  have  a  large  range  of  values,  resulting  in  a  large  amount
                 of  noise  in  the  injected  data.  Additionally,  due  to  workers’  concerns  about  privacy  breaches,  mobile  crowdsensing  servers  cannot
                 preprocess  data  without  privacy  protection.  To  this  end,  this  study  proposes  NATURE,  which  meets  local  differential  privacy  based  on
                 adaptive  pruning.  The  core  idea  of  the  algorithm  is  to  consider  the  noise  types  in  the  data  to  adaptively  prune  all  unnecessary  workers’
                 values  or  certain  task  values.  In  NATURE,  the  noise-aware  weight  and  importance  estimation  (NWIE)  method  based  on  a  formalized
                 constraint optimization problem is designed to facilitate data pruning. Based on proving the optimal pruning problem is NP-hard, this study
                 designs  the  utility-aware  adaptive  pruning  (UAP)  method  with  polynomial  time  complexity  to  conduct  pruning.  Furthermore,  a  theoretical
                 analysis  of  NATURE’s  privacy,  utility,  and  complexity  is  carried  out.  Experimental  results  on  two  real-world  datasets  and  one  synthetic
                 dataset  demonstrate  that  NATURE  achieves  an  accuracy  improvement  of  at  least  20%  in  obtaining  “truth”  compared  to  its  comparative
                 algorithms.
                 Key words:  mobile crowdsensing (MCS); truth discovery; privacy protection; local differential privacy; adaptive pruning
                    随着智慧城市建设步伐的加快, 环境感知需求日益增长并呈现复杂化趋势, 移动群智感知                           (mobile crowdsensing,
                 MCS) 技术的出现给复杂环境下的城市感知带来了更精确有效的解决方案                       [1] . 通过工人间的协作, 可为诸如环境监
                 测、罪犯追踪以及智慧交通等提供决策支持               [2] . 相关统计显示, MCS  的部署可以降低      30%–70%  的交通事故, 减少
                 不必要的生命财产损失         [3] . 在  MCS  中, 感知数据的收集被外包给了一大群携带感知设备的工人, 这些工人享受
                 MCS  提供的服务并向     MCS  服务器提供数据以改善        MCS  的后续服务   [4] .
                    在  MCS  中, 不同工人设备的感知精度不同, 同时由于网络拓扑结构的影响, 数据传输环境也可能不可靠, 因
                 此, MCS  服务器需要将收集到的数据进行必要的聚合处理                [5] . 传统的解决方案是对感知数据求平均值. 然而, 因为
                 该方法平等地对待所有工人的数据, 可能导致无法得出准确的结果. 因为不同工人所感知到的数据质量差异较大,
                 而且每个工人的权重通常是未知的            [6] , 理想的方法应该具有捕捉差异的能力. 为应对这一挑战, 旨在从众多质量不
                 同的数据中发现“真值”的真值发现方法应运而生. 该方法的核心思想是如果一个工人的数据更接近“真值”, 则给
                 该工人分配更高的权重        [7] .
                    然而, 工人上传的数据中可能隐含个人的隐私信息, 比如家庭住址、身份信息等可能从上传的数据中推导出
                 来  [8,9] . 因此, 如果不加处理地将这些数据上传到服务器可能导致工人因为担心隐私泄露而不愿意参与到                           MCS  中
                 来, 进而影响   MCS  系统的运行和用户对        MCS  的粘性. 为避免隐私泄露, 研究人员提出使用本地差分隐私                  (local
                 differential privacy, LDP) 技术来保护工人的隐私  [10] , 其核心思想是数据在上传到服务器之前在本地进行扰动, 能
                 从根本上保护用户的隐私. 目前, LDP         技术已被应用于众多互联网巨头的产品中, 比如谷歌的                  Chrome 浏览器  [11] 、
                 苹果的   iOS  系统  [12] 以及微软的 Windows Insiders  [13] . 一种快捷、高效的实现  LDP  的典型方法是向数据中注入
                 Laplace 噪音  [14] . 本文也将采用  Laplace 来保护工人的数据.
                    在真值发现场景中, 由于主客观因素的影响, 每个工人上传的感知数据质量可能显著不同, 有些数据甚至不
                 可用. 从主观上来说, 实际的        MCS  系统中可能存在恶意的工人, 提交错误的值. 也可能存在女巫攻击者                       (sybil
                 attacker) 故意提交精心构造的其他值来恶意提升自己的感知质量或者是获得                      MCS  服务器的奖励     [15] ; 从客观上
                 来说, 有些工人可能并不知道自身传感器已失效, 也可能受周围环境以及传输网络的影响                               [16] ; 非隐私下真值发
                 现算法也需要对数据做预处理           [6,7] . 真值发现算法对不同数据加权聚合, “真值估计”步骤和“权重更新”步骤紧密
                 耦合, 在没有任何先验知识的情况下, 由于错误甚至是恶意数据的干扰, 可能导致得到的“真值”精度低或者需要
   480   481   482   483   484   485   486   487   488   489   490