Page 345 - 《软件学报》2021年第10期
P. 345
吴桦 等:大型指纹库场景中加密视频识别方法 3317
ADU 长度精准复原方法 HHTF 可以从加密传输的 ADU 复原出 ADU 明文长度,这是本文的关键技术创新
点.这一技术大大提高了加密视频识别结果的准确率、查准率、查全率,降低了假阳率.使用本文的方法后进行
加密视频识别能够实现大型明文指纹库场景中加密视频的准确识别.
2 ADU 长度精准复原方法 HHTF
对单个 ADU 的长度精准复原是 ADU 匹配的前提,本节给出了对单个 ADU 长度进行精准复原的方法,该方
法的关键点在于特征的提取考虑了 HTTP 头部和 TLS 片段这两个关键因素,因此在下文中简写为 HHTF(http
head & TLS fragmentation)方法.
本节首先给出复原方法的总体架构;然后着重阐述 TLS 加密数据长度偏移的基本原理;基于这个基本原理,
给出了特征提取的方法;使用提取的特征进行模型拟合,得到 HHTF 修正方法的参数,并讨论了 HHTF 方法的适
用性.
2.1 加密应用数据单元长度精准复原方法架构
图 6 所示为本文提出的加密应用数据单元长度精准复原方法架构图.
ADU明文字典
TLS片段的
密文长度 模型训练
密文
传输长度提取
TLS片段的 训练好的
密文长度 回归模型 ADU长度
密文
传输长度提取
Fig.6 Architecture of the accurate restoration method for encrypted ADU length
图 6 应用数据单元长度精准复原方法架构
首先通过代理等带外方式采集应用的明文数据信息,并提取其长度信息构成 ADU 明文字典.需要指出的
是,此处的 ADU 明文字典与图 4 所示的视频明文指纹是不同的.这里研究的是单个 ADU 长度的复原方法,明文
字典里存储的是应用层单个 ADU 的长度,只有数据量特征;而图 4 所示的视频识别应用中,指纹库中的视频指纹
包括一系列 ADU 的长度及其传输的时间顺序特征.
通过明文字典对训练数据打上长度标签,并提取密文传输时的传输长度和相关特征,再通过机器学习得到
对 ADU 长度精准复原的回归模型.对 ADU 长度进行修正时,提取 ADU 加密数据的传输长度和相关特征,使用
训练好的回归模型进行计算,就可以精准复原出该 ADU 的明文长度.
2.2 数据集
由于尚无公开的视频明文与密文对应的数据集,本文采集了 Facebook 的数据集,采用了如下的方法.
针对明文字典的构建,我们通过对 DASH 视频传输时的 MPD 文件解析,以获得明文的准确信息.MPD 文件
是 DASH 模式中视频 ADU 的元文件,包含了视频 ADU 信息以及视频 ADU 资源地址信息.使用 DASH 模式传
输视频时,在每次播放的开始以及分辨率切换时,会传输该视频对应分辨率的 MPD 文件.通过对 MPD 文件的解
析,我们可以获得这些视频片段(即视频 ADU)的明文特征,包括 ADU 的数据量长度.MPD 文件也是加密传输的,