Page 351 - 《软件学报》2021年第10期
P. 351

吴桦  等:大型指纹库场景中加密视频识别方法                                                          3323


                                                      () 
                                                     PA    C 1   2  f  ( )dx x                       (7)
                                                           C
                 其中,f(x)为图 11 中的概率密度函数,c1 和 c2 是匹配的上下界.因为 HHTF 方法修正得到的是确定性变量,所以
                 P HHTF (A)f(x).为了简化计算,f(x)可以使用 ADU 长度均值 x 0 在总体中的概率 f(x 0 )来估算,得到:P HHTF (A)f(x 0 ).
                                                                                            6
                                                                           6
                    根据第 3.1 节中模拟的测试指纹库的构建参数,可以得到 f(x 0 )=7.910 ,即 P HHTF (A)7.910 .
                 3.2.2    Reed 方法应用于单个 ADU 匹配算法及其匹配概率
                    现有的对加密视频识别的论文主要关注点在视频匹配算法的设计上,大部分都忽视了加密数据经过传输
                 协议和加密协议封装后数据长度的不确定性,这是导致现有文献成果无法真正应用到真实网络中的根本原因.
                 目前,对这个问题提出解决方法的有文献[2023],其中,文献[20]与本文的方法一样使用的是明文指纹库,在进行
                 匹配前对传输密文指纹作了修正.文献[21]发表于文献[20]之前,虽然有指纹修正,但只是简单等比扩大匹配范
                 围.文献[22]则明确指出其参考了文献[20,21]的方法和参数,因此,本文与文献[20]进行对比分析,以下将使用文
                 献[20]的方法进行修正后匹配的方法称为 Reed 方法.
                    在与 HHTF 对比的 Reed 方法中,文献[20]并没有对单个 ADU 匹配的方法及匹配进行分析,本节基于文献
                 [20]的修正原理对单个 ADU 进行了修正,并给出了修正结果应用于单个 ADU 匹配的方法.
                    文献[20]指出了直接使用密文传输指纹匹配明文指纹会产生偏差的原因:HTTP 头部对每个视频 ADU 增加
                 大约 520 个字节;TLS 头部对视频 ADU 和 HTTP 头部的组合增加大约 0.18%的载荷.文献[20]在匹配时针对这
                 两个偏差对传输指纹进行了边界修正:
                                                                    
                                              Min   Total  _ Received    (30 525)                   (8)
                                                       1.0019
                                                   Total  _ Received
                                                                    
                                              Max                (30 515)                           (9)
                                                       1.0017
                    Reed 方法要求连续采集到 30 个 ADU 才能进行视频匹配,因此 Min 和 Max 是指连续 30 个 ADU 的传输指
                 纹数据量的上下边界.本节不考虑 30 个 ADU 这个加强条件,因此,Reed 方法中对单个 ADU 长度的修正公式为
                                                  ADU_R=Payload_S c /pq                             (10)
                 其中,p 为 TLS 头部增加的载荷参数,q 为 HTTP 头部增加的载荷参数.文献[20]中,p=1.0018,q=520.
                    因为本文的数据集是 Facebook 数据,而文献[20]是针对 Netflix 平台的,本文首先使用第 2.2 节中的 Facebook
                 数据集进行了回归拟合训练,一共 14 551 个 ADU,其中 70%作训练集,30%作测试集,得到参数为 p=1.003676129,
                 q=589.48.
                                           ADU_R=Payload_S c /1.003676129589.48                     (11)
                    利用公式(11)计算样本的 ADU_R,再使用明文指纹计算残差 x=ADU_FADU_R.训练集的结果为:残差的
                 均值为 0,方差为 1 901.87,标准差为 43.61;测试集结果为:残差的均值为 0.588,方差为 1799.17,标准差为 42.42.
                 可见训练误差和测试误差很接近,因此采用该模型是可行的.
                    图 12 为样本残差 PDF,可以看到,Reed 方法修正后残差主要分布在100 字节到 100 字节之间.
                    由图 12 可见,Reed 方法获得的单个 ADU 长度残差分布可近似地看成正态分布.为均值,为标准差,记作
                       2
                 X~N(, ).可使用训练集残差的均值来无偏估计总体残差的均值,用训练集残差的标准差来无偏估计总体残差
                                     2
                 的标准差,则 X~N(0,43.61 ),残差在正负 3 倍标准差范围内的概率为 P{3<x<+3}=0.997,即:残差在[130,
                 130]区间内的概率为 99.7%.
                    利用公式(11)进行长度修正后再进行单个 ADU 匹配,已知 Payload_S c ,计算得到 ADU_R,则这个 ADU 的明
                 文长度 ADU_F 在[ADU_R130,ADU_R+130]区间内的概率为 99.7%,定义该区间为 Reed 方法的匹配区间[c1,
                 c2].使用 Reed 方法后进行单个 ADU 匹配的方法为:通过上述方法计算出匹配区间,匹配时,指纹库中片段长度
                 在匹配区间内的 ADU 为与之匹配的 ADU,其对应的 ADU 明文指纹长度在匹配区间内的概率是 99.7%.
                    Reed 方法的匹配区间为[c1,c2],在匹配区间内,任意明文指纹长度和修正值匹配的事件 A 的概率为
                  () 
                 PA    C 1   2  f  ( )d ,x x f(x)为图 11 所示 ADU 的概率密度函数.为简化计算,可把匹配区间内的概率设为相等的一条
                       C
   346   347   348   349   350   351   352   353   354   355   356