Page 243 - 《软件学报》2021年第11期
P. 243
咸鹤群 等:基于阈值动态调整的重复数据删除方案 3569
• 当 count(U F )<T 时,CSP 检查是否已经存在相同数据.
¾ 若为首次上传,用户 U 加密数据并上传至 CSP,同时给出自己对该数据隐私评分 PR U .CSP 记录
PR U ,存储加密后的对称加密密钥 K′ = F EX 3 ,K − F H ( ))F 和密文 c K =E(K F ,F),如图 3 中 a)部分所
(
示,其中,K F 是数据加密密钥.
¾ 若非首次上传,则 CSP 返回给用户对称加密密钥 K′ 和建议隐私分数 PR′.U 解密并计算获得 K F ,
F
并用其加密 F,将密文 c K =E(K F ,F)和综合考量的隐私评分 PR U 一同上传至 CSP.CSP 动态更新 PR′
后删除新上传数据信息,并为 U 创建访问链接,如图 3 中 b)部分所示.
• 当 count(U F )=T 时,CSP 通知用户 U 进行收敛加密.U 上传收敛加密密文 c X =E(X,F),其中,X=H(F)+X 2 .
CSP 存储该密文.
• 当 count(U F )>T 时,CSP 告知用户进行客户端删重,并为 U 创建访问链接.
3.5 基于项目反应理论的隐私分数计算和阈值更新
本文采用基于项目反应理论的隐私分数计算方法 [26] ,从而确保数据的隐私分数符合多数上传用户要求.
由于不同的上传数据 F之间是相互独立的,用于计算其隐私分数 PR的参数ξ=(α,β)可以独立计算,进而使得
PR 的计算能够并发执行.基于项目反应理论(IRT)的 PR 计算仍需要使用公式(3)来估计概率 P=prob{R(i,j)=1},
其中,R(i,j)为二值型矩阵,下文中直接用 R 表示.在云存储环境中,虽然没有受测试者和测试问题,但是有上传用
户和上传数据这两类对象.我们将上传用户 U 看作受测试者,上传数据 F 看作信息项.因此,用户的隐私倾向就对
应于受测试者的能力:通过隐私倾向参数θ,量化用户 U 对上传数据 F 隐私的在意程度.θ值越高,表示数据越开
放 [20] .如果我们假设上传数据 F 的隐私问题容易理解且具有完全相同的区分度,那么,问题区分度参数α就不再
是一个需要考虑的变量.因此,可以用常量替代或直接忽略不计.最后,我们用问题的难度参数β来代表数据信息
的敏感度,β≥0.
对于每个上传数据的参数ξ=(α,β),可以通过最大似然函数对其进行估计,如公式(5)所示.
N
∏ P R (1 P− ) 1 R− (5)
j= 1
其中,N 为上传同一数据 F 的用户总数,R 为二值型矩阵.具体的,用户上传数据 F 时会一同上传 PR U ,以代表自己
对上传数据隐私程度的评价.本实例在求敏感度β时,将 PR U 的值进行简单的推算作为隐私倾向参数θ,即
PR
θ = U .最终,在隐私倾向参数θ为已知量的基础上求得敏感度β.
100
根据上述过程可获知ξ=(α,β)的值,确定敏感度β的值.在此基础上,待上传数据 F 的总体隐私倾向θ F 也通过
上述似然函数搜索得出.具体的,本实例在敏感度β为已知量的基础上,选用牛顿-拉夫逊的拓展算法 NR_
Attitude_Estimation 算法来搜索似然函数或其对应的 log 似然函数,找到使其最大的隐私倾向参数θ F .最终,通过
公式(4)对其进行整合,得到建议隐私分数 PR′,用户 U 根据建议隐私分数 PR′调整并上传自己的隐私分数评分
[19]
PR U .
N
∑ PR (, )i j
而对于某一确定数据 F i 的综合隐私分数表示为 PR = j= 1 , 其中,j 为某上传用户的具体表示,
i N
PR i ∈[0,1].
最终,CSP 根据每次数据上传结束后的隐私分数变化,结合公式(6)更新数据阈值.
a
T = − (a − 1) (6)
i
−
(1 PR i ) 2
其中,a 为参数,其数值的大小可根据实际情况进行调整.
随着上传用户数量的增加,阈值变化逐渐趋于平稳,即 lim |T i+ 1 − T i | ε≤ (其中,ε为可忽略的值).在此,我们提
i→∞
°
出理想阈值的概念.所谓理想阈值 T 是指每个文件具有的一个符合用户意愿的阈值.随着用户数量的增加,动态