Page 351 - 《软件学报》2021年第10期

P. 351

吴桦等:大型指纹库场景中加密视频识别方法 3323

() 
PA C 1  2 f ( )dx x (7)
C
其中,f(x)为图 11 中的概率密度函数,c1 和 c2 是匹配的上下界.因为 HHTF 方法修正得到的是确定性变量,所以
P HHTF (A)f(x).为了简化计算,f(x)可以使用 ADU 长度均值 x 0 在总体中的概率 f(x 0 )来估算,得到:P HHTF (A)f(x 0 ).
6
6
根据第 3.1 节中模拟的测试指纹库的构建参数,可以得到 f(x 0 )=7.910 ,即 P HHTF (A)7.910 .
3.2.2 Reed 方法应用于单个 ADU 匹配算法及其匹配概率
现有的对加密视频识别的论文主要关注点在视频匹配算法的设计上,大部分都忽视了加密数据经过传输
协议和加密协议封装后数据长度的不确定性,这是导致现有文献成果无法真正应用到真实网络中的根本原因.
目前,对这个问题提出解决方法的有文献[2023],其中,文献[20]与本文的方法一样使用的是明文指纹库,在进行
匹配前对传输密文指纹作了修正.文献[21]发表于文献[20]之前,虽然有指纹修正,但只是简单等比扩大匹配范
围.文献[22]则明确指出其参考了文献[20,21]的方法和参数,因此,本文与文献[20]进行对比分析,以下将使用文
献[20]的方法进行修正后匹配的方法称为 Reed 方法.
在与 HHTF 对比的 Reed 方法中,文献[20]并没有对单个 ADU 匹配的方法及匹配进行分析,本节基于文献
[20]的修正原理对单个 ADU 进行了修正,并给出了修正结果应用于单个 ADU 匹配的方法.
文献[20]指出了直接使用密文传输指纹匹配明文指纹会产生偏差的原因:HTTP 头部对每个视频 ADU 增加
大约 520 个字节;TLS 头部对视频 ADU 和 HTTP 头部的组合增加大约 0.18%的载荷.文献[20]在匹配时针对这
两个偏差对传输指纹进行了边界修正:

Min  Total _ Received  (30 525) (8)
1.0019
Total _ Received

Max   (30 515) (9)
1.0017
Reed 方法要求连续采集到 30 个 ADU 才能进行视频匹配,因此 Min 和 Max 是指连续 30 个 ADU 的传输指
纹数据量的上下边界.本节不考虑 30 个 ADU 这个加强条件,因此,Reed 方法中对单个 ADU 长度的修正公式为
ADU_R=Payload_S c /pq (10)
其中,p 为 TLS 头部增加的载荷参数,q 为 HTTP 头部增加的载荷参数.文献[20]中,p=1.0018,q=520.
因为本文的数据集是 Facebook 数据,而文献[20]是针对 Netflix 平台的,本文首先使用第 2.2 节中的 Facebook
数据集进行了回归拟合训练,一共 14 551 个 ADU,其中 70%作训练集,30%作测试集,得到参数为 p=1.003676129,
q=589.48.
ADU_R=Payload_S c /1.003676129589.48 (11)
利用公式(11)计算样本的 ADU_R,再使用明文指纹计算残差 x=ADU_FADU_R.训练集的结果为:残差的
均值为 0,方差为 1 901.87,标准差为 43.61;测试集结果为:残差的均值为 0.588,方差为 1799.17,标准差为 42.42.
可见训练误差和测试误差很接近,因此采用该模型是可行的.
图 12 为样本残差 PDF,可以看到,Reed 方法修正后残差主要分布在100 字节到 100 字节之间.
由图 12 可见,Reed 方法获得的单个 ADU 长度残差分布可近似地看成正态分布.为均值,为标准差,记作
2
X~N(, ).可使用训练集残差的均值来无偏估计总体残差的均值,用训练集残差的标准差来无偏估计总体残差
2
的标准差,则 X~N(0,43.61 ),残差在正负 3 倍标准差范围内的概率为 P{3<x<+3}=0.997,即:残差在[130,
130]区间内的概率为 99.7%.
利用公式(11)进行长度修正后再进行单个 ADU 匹配,已知 Payload_S c ,计算得到 ADU_R,则这个 ADU 的明
文长度 ADU_F 在[ADU_R130,ADU_R+130]区间内的概率为 99.7%,定义该区间为 Reed 方法的匹配区间[c1,
c2].使用 Reed 方法后进行单个 ADU 匹配的方法为:通过上述方法计算出匹配区间,匹配时,指纹库中片段长度
在匹配区间内的 ADU 为与之匹配的 ADU,其对应的 ADU 明文指纹长度在匹配区间内的概率是 99.7%.
Reed 方法的匹配区间为[c1,c2],在匹配区间内,任意明文指纹长度和修正值匹配的事件 A 的概率为
() 
PA C 1  2 f ( )d ,x x f(x)为图 11 所示 ADU 的概率密度函数.为简化计算,可把匹配区间内的概率设为相等的一条
C

346 347 348 349 350 351 352 353 354 355 356