Page 240 - 《软件学报》2021年第11期
P. 240
3566 Journal of Software 软件学报 Vol.32, No.11, November 2021
分一起上传给 CSP.每次数据上传操作完成后,CSP 对该数据的 PR 进行调整更新,以便作为后续上传用户的反馈
信息.经过不断地上传和调整,每个上传数据 F 均对应一个逐渐趋于稳定且符合多数上传用户要求的 PR.CSP 根
据 PR 计算 F 的流行度阈值 T,并根据 T 的实际大小执行重复数据删除操作.这样既降低了存储空间浪费,又避免
了隐私数据的泄露.在数据观察阶段,只有上传过该数据的用户才可以对 CSP 发起查询请求.CSP 返回给用户所
查询的数据密文.此外,尽管我们假设 CSP 是诚实且好奇的,但它可以进行离线数据分析,以推断额外的信息.因
此,从用户隐私保护的角度来看,CSP 是不可信的.
1.2 设计目标
为了更好地保护数据隐私,设计的方案应该具有以下几个特点.
(1) 上传数据的保密性:为保护用户隐私,上传数据需要进行一定的加密操作.
(2) 隐私分数的可查询性:用户上传数据时可在云端查询其合理隐私分数作为参考.
(3) 隐私分数和阈值的可更新性:每个数据的隐私分数和阈值可根据具体上传情况进行动态更新.
2 预备知识
2.1 项目反应理论及其特性
项目反应理论(item response theory,简称 IRT) [20] 是一个著名的心理学理论,常被用于问卷调查结果统计和
测试数据分析.该理论可以通过度量受测用户的能力和特定测试项目的难度,推断出受测用户正确回答给定问
题的概率.文献[21]中已经通过实验证明了,IRT 可以被应用到云场景中.
Rasch 模型 [22] 是最常见的 IRT 模型之一,它假定正确响应的概率函数仅与θ i ,α i 和β i 有关,问题 q i 由一对参数
ξ i =(α i ,β i )来表示.其中,θ i 代表受测用户的能力等级,α i 为问题 q i 的区分能力,β i 代表测试问题的难度.因其具有计
算参数少、构造简单等特性,该模型具有所需样本更小的优势.邀请受测用户 j 对某一问题 q i 进行回答,如果用
“正确”或“错误”这种二值标记法来表示问题答案,那么问题 q i 被受测用户 j 正确回答的概率为
1
P = (1)
ij
+
1e i α ( i θ − i β − )
IRT 具有两个显著的特性.
(1) 群组不变性,即项目的难度是项目自身的性质,与受测用户对该项目的回答无关.或者说单个项目的
参数不仅适用于当前受测用户样本,而且对所有类型的受测用户都具有较好的普适性 [23] .
(2) 受测用户的独立性,即一个受测用户不会影响其他受测用户对某一问题的回答.受测用户对某一问题
的回答只取决于其自身.
2.2 通用敏感度计算方法
通常来讲,某一数据的敏感度越高,受测用户就越不想将其公开.如公式(2)所示.
N− | R |
β = i (2)
i
N
用|R i |(即 R(i,j)=1 的个数)来表示愿意公开数据项 i 的受测用户个数,那么拒绝公开数据项 i 的受测用户数量
与该数据项的敏感度β i 成正比,其中,N 为数据项个数;并且数据项 i 越敏感,β i 的值越高 [19] .
2.3 通用可见度计算方法
在问题的答案为二值型的情况下,通常采用估计概率 P ij =prob{R(i,j)=1}来计算数据的可见度.假设测试项
目和受测用户之间是相互独立的,即某次测试调查中,受测用户回答每个问题的概率是相同的,我们能够通过将
j
j
二值矩阵行 R i 中 1 所占的比例和列 R 中 1 所占的比例相乘积的方式来计算 P ij 的值.也就是说,如果|R |表示受
测用户 j 设置的数据项中 R(i,j)=1 的个数,则概率 P ij 随着信息项敏感度的降低和受测用户共享信息倾向的增加
而增加.可见度计算公式如公式(3)所示 [24] .