Page 239 - 《软件学报》2021年第11期
P. 239
咸鹤群 等:基于阈值动态调整的重复数据删除方案 3565
具有不同的流行度阈值.在目前已有的云存储实际应用中,CSP 给所有上传的数据规定统一的阈值,这种方式会
导致许多问题.如果统一的阈值过大,对于本身隐私程度较低的数据而言,在其副本数量未达到阈值之前,需要
全部存储在 CSP.大量此类数据的重复存储,会造成较大的存储空间浪费;如果统一的阈值过小,会导致隐私程度
较高的数据过早的被执行重复数据删除操作,进而可能增大隐私泄露的安全风险.因此,应该根据数据本身的隐
私程度为其设定各不相同的阈值,同时需要考虑用户对其隐私程度的认识.例如,一个常用的软件安装包应具有
较小的阈值,使其很快被执行重复数据删除操作,在尽可能减少占用存储空间的同时,也不会对用户隐私造成任
何损害;而当某一公司内部机密文件被上传时,根据上传该数据的用户对其隐私程度的认识,CSP 可以为其设定
相对较大的阈值,进而有效地避免过早执行重复数据删除,更好地保护用户数据的安全.然而,如何判断每个上
传数据的隐私程度,并根据其隐私程度确定一个合理的阈值,仍然是一个复杂而且困难的问题,也是本文重点研
究的内容.
本文的主要贡献归纳如下:
(1) 面向云存储场景,提出了一种基于阈值动态调整的重复数据删除方案,确保用户上传的数据及相关操
作的安全.
(2) 设计了阈值动态调整机制,运用项目反应理论进行阈值动态调整.结合查询应答机制,根据多数上传
用户的反馈为每个上传数据确定一个合理的阈值.
(3) 提出了理想阈值的概念,消除了传统方案中为所有数据分配统一阈值所带来的弊端.
本文第 1 节讨论重复数据删除领域的现状及其发展概况.第 2 节介绍系统模型和设计目标.第 3 节给出方
案的预备知识.第 4 节分别从隐私分数查询、数据上传、隐私分数计算及其阈值更新这 3 个部分详细阐述基于
阈值动态调整的重复数据删除方案的具体设计.第 5 节给出实验对比及其分析.第 6 节对全文进行总结,并展望
未来的研究工作.
1 系统模型和设计目标
1.1 系统模型
本方案的系统模型涉及两类实体,即上传用户和云存储提供商(CSP).在系统建立时,上传用户可以与 CSP
进行数据交互.在交互过程中,上传用户可以扮演两个角色:数据上传者或数据观察者.CSP 为上传用户提供数据
存储和数据共享服务,无法获知数据的具体内容.系统模型如图 1 所示.
上传用户
(数据上传者)
云存储提供商
上传用户
(数据观察者)
Fig.1 System model
图 1 系统模型
该模型引入了隐私分数(privacy score,简称 PR) [19] 的概念.数据 F 的 PR 是隐私风险的指示器,PR 越大,代表
该数据的隐私程度越高.在数据上传阶段,首先由上传用户对 CSP 发起上传数据请求,并借助椭圆曲线加密算法
计算数据的查询标签.CSP 收到上传请求后,执行数据查询和密文对比等操作,在不泄露数据内容的情况下,检测
F 是否为首次上传.若 CSP 查询到云端已存储该数据,则返回给用户一个建议 PR.用户将加密后的 F 及其 PR 评