Page 349 - 《软件学报》2021年第10期
P. 349

吴桦  等:大型指纹库场景中加密视频识别方法                                                          3321


                 的头部信息.
                    对数据集中符合要求的 12 739 个 ADU 传输指纹,使用公式(6)计算了 ADU_R,与明文指纹 ADU_F 比较,
                 12 739 个计算结果与明文数据完全吻合.计算结果表明:HHTF 方法得到的修正值是一个确定性变量,而不是随
                 机变量.由于 HHTF 方法修正后得到的修正长度等于明文长度,HHTF 可以精准复原 ADU 长度.
                    HHTF 可以精准复原长度的原因有两个:(1)  本模型是根据加密流程的基本原理推理的,特征选择包括了所
                 有影响长度的因素;(2)  少数无法获得 HTTP 头部加密长度准确值的情况,即符合图 7 中的 TLS 片段数据分布 1
                 的数据样本不参与训练,也不参与测试.
                    理论上说,在 TLS 协议中的压缩、填充也会影响数据长度,但在实际监测中发现:对现有视频数据来说,视频
                 明文本身就是压缩的,二次压缩没有效果,因此都没有在 TLS 里实现压缩.有关数据填充问题,本文的研究过程
                 中也发现:TLS1.0 会有数据填充,而现在普遍使用的 TLS1.2 加密后传输,经过对 YouTube 和 Facebook 数据的分
                 析调查发现,在传输视频数据时都没有填充.因此,本文提取的特征值对 TLS1.2 加密后传输的视频已经足够,可
                 以得到 ADU 长度精准复原值.
                    HHTF 方法之所以能够高度准确复原 ADU 的数据长度,是因为特征的提取考虑了 HTTP 头部和 TLS 片段
                 这两个关键因素.下面从视频服务平台和终端两方面讨论其适用性.
                 2.5   HHTF方法的适用性
                    除了 Facebook 的视频片段,我们同时测试了 YouTube DASH 视频片段.由于 YouTube 默认情况使用 QUIC
                 协议传输视频,在接入路由器上关闭 UDP 协议的 443 端口后,YouTube 就恢复使用 HTTPS.用同样的方法采集了
                 测试数据集.YouTube 每个 ADU 的可播放时长为 10s,本文采集了 376 个片段的传输指纹,构建了对应明文指纹
                 库,同样进行了模型训练,得到的模型与公式(6)一样.使用公式(6)对传输指纹进行修正,再与明文指纹比较,376
                 个片段的修正结果与明文指纹库的长度完全吻合.所有的传输指纹都可以还原到与明文指纹的精准匹配.由此
                 可见,本方法同样适用 YouTube 视频 ADU 使用 TLS1.2 加密并使用 HTTP1.1 流水线模式传输指纹的还原.
                    此外,对 YouTube 的实验样本分析结果发现,YouTube 样本全部符合图 8 所示的 TLS 片段数据分布 2.由于
                 Netflix 需要当地移动接入的移动终端才能播放,本文未能采集数据进行验证.但是从加密视频服务器平台的覆
                 盖面上看,Facebook 和 YouTube 的测试结果已经可以说明 HHTF 方法的适用性.
                    本文的实验数据采集使用了三星 Note5、华为畅享 5、三星 s5 和三星 s6 edge 这 4 款手机,在所有 4 个测
                 试手机上,Facebook APP 使用 TLS1.2 协议时都选了加密套件“TLS_ECDHE_ECDSA_WITH_AES_128_GCM_
                 SHA256(0xC02B)”,而 YouTube 的 APP 使用 TLS1.2 协议都选用了加密套件“TLS_ECDHE_RSA_WITH_AES_
                 128_GCM_SHA256(0xC02F)”.虽然加密套件有所不同,但是本方法都适用.
                    由此可见:HHTF 方法不仅适用于不同的视频分发网站,对移动终端也有较强的适用性.
                 3    大型明文指纹库中加密视频识别


                 3.1   大型明文指纹库的构建
                    为了评估 HHTF 方法应用的效果,必须构建大型的视频指纹库.视频指纹库中存放了视频的 ADU 长度及其
                 播放顺序,这些信息构成了视频的指纹.
                    由于获得 Facebook 真实的大型视频指纹库在现有条件下难以办到,本文基于统计学的基本原理构造大型
                 模拟视频指纹库,只要样本具有独立性和代表性,在样本容量足够大的情况下,可以从样本统计量推断总体参
                 数,据此可以模拟构建大型 Facebook 视频指纹库.
                    首先需要获得真实的视频及视频 ADU 分布.为了能够从样本统计量准确推断出总体统计量,样本的选择必
                 须具有独立性和代表性.通过代理采集了真实的 Facebook 视频 277 个,视频的种类包括影视、体育、游戏、音
                 乐和综艺这五大类,5 类视频采集的个数依次为 98 个、65 个、30 个、42 个和 42 个.视频的播放时长包括
                 [1min,2min]、[2min,5min]、[5min,15min]、[15min,120min]这 4 个时间长度区间.277 个视频的 ADU 片段数目
   344   345   346   347   348   349   350   351   352   353   354