Page 238 - 《软件学报》2021年第11期

P. 238

3564 Journal of Software 软件学报 Vol.32, No.11, November 2021

for data uploading. Experiment results and comparative analysis show that the proposed scheme based on threshold dynamic adjustment
has sound scalability and solid practicability.
Key words: deduplication; item response theory; threshold dynamic adjustment; ideal threshold

近年来,随着网络技术的快速发展和信息量的逐日增加,用户需要花费大量的资源和时间来存储和管理自
己的数据.云存储技术应运而生,并快速发展成为一种主流的存储技术.用户间的数据共享成为一种普遍的应用
需求,同时给云存储提供商(cloud storage provider,简称 CSP)带来了新的挑战.随着上传数据量的逐日增加,共享
数据所占的比重越来越大,数据冗余程度随之提高.统计数据表明,云存储的数据中有高达 60%的冗余数据.大量
[1]
的云存储空间和存储资源被冗余数据所占用,这增加了 CSP 对云端数据的存储和维护成本 .
[2]
为了解决上述问题,CSP 普遍采用了重复数据删除技术 .重复数据删除是基于数据自身的冗余度来检测
上传数据流中的相同数据对象,只存储唯一的数据副本,并为其他上传该数据的用户创建数据访问链接.与传统
的数据压缩技术相比,重复数据删除技术不仅可以消除文件内部的数据冗余,还能消除共享数据集内文件之间
的数据冗余 [3−5] .然而,部分用户缺乏安全意识,导致大量隐私数据在用户不知情的情况下被共享.近年来,大规模
[6]
数据泄露事件引发了业界对隐私保护问题的高度关注 .因此,在提高云端重复数据删除效率的同时,如何更好
[8]
[7]
地保护用户隐私,是一个非常重要的问题 .Harnik 等人第一次提出了客户端重复数据删除的安全问题 .文献
[9]首次提出了支持上传数据加密的重复数据删除方案——收敛加密,在该方案中,采用数据的散列值作为其加
密密钥,从而保证数据和密钥的一一对应,同时对加密密文进行所有权认证.然而,从明文直接获得加密密钥的
方式无法达到语义安全要求.文献[10]针对密文重复数据删除问题首次提出了多客户端交叉的重复数据删除方
案 Xu-CDE [11] ,在外部攻击者和诚实且好奇的服务器并存的场景下,保护隐私数据的安全.但在实用性方面,该方
案存在加密效率低和认证缺乏实时性的缺点.针对以上缺点,文献[12]提出了 MRN-CDE 方案.该方案通过引入
随机数,保证每一次文件所有权认证过程的及时性和有效性,能够避免重放攻击.为了减少加解密过程的运算量
和确保数据的安全性,该方案利用 MLE(message locked encryption)方案中的 KP 算法 [13] 从原始数据中提取密钥,
进一步提高了重复数据删除的安全性.此外,一些 CSP 为用户提供客户端加密选项,用户上传数据之前对数据进
行加密.这种方法虽然繁琐却可以有效地保护数据隐私.但是,由于客户端加密可能导致相同的明文数据被加密
成为不同的密文,为重复数据删除带来了困难.因此,上述方案虽然提高了云存储的安全性,但在存储效率方面
仍然有待提高.
针对重复数据删除的效率问题,Stanek 等学者提出了基于流行度划分的方案.该方案根据不同的流行度,采
取不同类型的加密方式,可以有效地提高重复数据删除的效率 [14] .该方案为所有数据分配一个既定的流行度阈
值 T,当云端某一数据的副本数量达到 T 时,就认为此数据为流行数据;否则,就将其视为非流行数据.CSP 只对流
行数据进行重复数据删除操作,从而在保护用户数据隐私的同时,更好地提高重复数据删除效率.Puzio 等人提
出的 PerfectDedup 方案 [15] 使用 Perfect Hash Function 查询数据信息的流行度,通过可信第三方的协助完成流行
数据的重复数据删除操作.但可信第三方的引入增加了 CSP 的通信开销,同时也存在一定的安全隐患.针对以上
问题,Liu 等人提出一种不需要第三方服务器的安全重复数据删除方案 [16] .方案采用口令认证密钥交换
(password authenticated key exchange,简称 PAKE)协议,实现了跨用户密钥传递,进而实现跨用户重复数据删除.
该方案消除了对第三方服务器的依赖,显著提升了其实用性.但是针对一些流行数据,用户同样需要对其执行对
称加密,并且需要与其他用户执行 PAKE 协议,导致了额外的计算开销.从 CSP 的角度考虑,存储空间和存储成本
是其最为关注的问题.现有的基于流行度检测的重复数据删除方案,在数据副本总量未达到流行度阈值之前不
进行重复数据删除操作,如文献[14,15]中方案.但实际上,用户上传至云端的隐私数据数量庞大,导致非流行数据
同样占据云端大量存储空间.为进一步节省云存储空间,针对非流行数据进行重复删除的方案被提出,如文献
[17,18]中方案.文献[17]中方案提出了基于椭圆曲线加密数据重复删除方案:该方案采用椭圆曲线加密算法,安
全性高、计算量较小;流行数据和非流行数据采用不同的加密方式,对流行数据采用客户端重复数据删除,存储
空间和带宽占用都比较少.
了解目前已有的重复数据删除方案后发现,大家均未考虑到一个实际问题——隐私程度不同的数据应该

233 234 235 236 237 238 239 240 241 242 243