Page 345 - 《软件学报》2021年第10期
P. 345

吴桦  等:大型指纹库场景中加密视频识别方法                                                          3317


                    ADU 长度精准复原方法 HHTF 可以从加密传输的 ADU 复原出 ADU 明文长度,这是本文的关键技术创新
                 点.这一技术大大提高了加密视频识别结果的准确率、查准率、查全率,降低了假阳率.使用本文的方法后进行
                 加密视频识别能够实现大型明文指纹库场景中加密视频的准确识别.

                 2    ADU 长度精准复原方法 HHTF

                    对单个 ADU 的长度精准复原是 ADU 匹配的前提,本节给出了对单个 ADU 长度进行精准复原的方法,该方
                 法的关键点在于特征的提取考虑了 HTTP 头部和 TLS 片段这两个关键因素,因此在下文中简写为 HHTF(http
                 head & TLS fragmentation)方法.
                    本节首先给出复原方法的总体架构;然后着重阐述 TLS 加密数据长度偏移的基本原理;基于这个基本原理,
                 给出了特征提取的方法;使用提取的特征进行模型拟合,得到 HHTF 修正方法的参数,并讨论了 HHTF 方法的适
                 用性.
                 2.1   加密应用数据单元长度精准复原方法架构
                    图 6 所示为本文提出的加密应用数据单元长度精准复原方法架构图.


                                     ADU明文字典




                                                     TLS片段的
                                                      密文长度        模型训练
                                       密文
                                                      传输长度提取




                                                      TLS片段的      训练好的
                                                       密文长度       回归模型             ADU长度
                                        密文
                                                      传输长度提取
                              Fig.6    Architecture of the accurate restoration method for encrypted ADU length
                                           图 6   应用数据单元长度精准复原方法架构
                    首先通过代理等带外方式采集应用的明文数据信息,并提取其长度信息构成 ADU 明文字典.需要指出的
                 是,此处的 ADU 明文字典与图 4 所示的视频明文指纹是不同的.这里研究的是单个 ADU 长度的复原方法,明文
                 字典里存储的是应用层单个 ADU 的长度,只有数据量特征;而图 4 所示的视频识别应用中,指纹库中的视频指纹
                 包括一系列 ADU 的长度及其传输的时间顺序特征.
                    通过明文字典对训练数据打上长度标签,并提取密文传输时的传输长度和相关特征,再通过机器学习得到
                 对 ADU 长度精准复原的回归模型.对 ADU 长度进行修正时,提取 ADU 加密数据的传输长度和相关特征,使用
                 训练好的回归模型进行计算,就可以精准复原出该 ADU 的明文长度.
                 2.2   数据集
                    由于尚无公开的视频明文与密文对应的数据集,本文采集了 Facebook 的数据集,采用了如下的方法.
                    针对明文字典的构建,我们通过对 DASH 视频传输时的 MPD 文件解析,以获得明文的准确信息.MPD 文件
                 是 DASH 模式中视频 ADU 的元文件,包含了视频 ADU 信息以及视频 ADU 资源地址信息.使用 DASH 模式传
                 输视频时,在每次播放的开始以及分辨率切换时,会传输该视频对应分辨率的 MPD 文件.通过对 MPD 文件的解
                 析,我们可以获得这些视频片段(即视频 ADU)的明文特征,包括 ADU 的数据量长度.MPD 文件也是加密传输的,
   340   341   342   343   344   345   346   347   348   349   350