Page 356 - 《软件学报》2021年第10期
P. 356
3328 Journal of Software 软件学报 Vol.32, No.10, October 2021
只有 4 个指标同时达到理想值才能判断算法是可用的;
(2) 在表 5 的结果中,使用 HHTF 方法,只要 2 个连续的 ADU 就可以达到理想的识别指标,但是对比表 3
的实验结果可以看到:当指纹库规模达到 20 万数量级时,2 个连续的 ADU 进行匹配的查准率只有
10.33%,会有大量其他视频被误识为识别视频,必须使用 3 个连续 ADU 进行匹配.这说明,随着指纹库
规模的扩大,FP 事件必然会上升,因此对小型指纹库适用的识别参数在大型指纹库里未必适用,只有
直接在大型指纹库中进行算法验证,结果才具有可信度.
3.7 实验结果通用性验证
上述实验证明了必须使用大型指纹库才能真正验证算法的可行性.由于无法得到真实的大型明文指纹库,
本文第 3.1 节基于统计学原理,使用 277 个 Facebook 视频的 77 802 个 ADU 长度统计特征,构建了一个模拟的
大型视频指纹库进行验证.
为了验证实验结果与模拟指纹库所使用的真实视频无关,本节将 277 个视频分成不相交的 2 组视频集:第 1
组包括 139 个 Facebook 视频,含有 40 215 个 ADU;第 2 组包括 138 个 Facebook 视频,含有 37 587 个 ADU.按照
同样的方法,先分别统计 ADU 长度 PDF,再基于 AUD 长度的 PDF,按照第 3.1 节所述的方法构造两个大型模拟
数据库,除了完全不相交的两组真实视频外,所有模拟视频构造过程中,ADU 长度遵循真实的 Facebook 视频
ADU 长度 PDF,各视频长度使用了一定的随机变化,因此这两个大型指纹库是不同的.使用同样的匹配方法,得
到两组实验结果.将这两组实验结果与第 3.5 节中的实验结果全部列入表 6,对 3 个不同大型模拟指纹库匹配实
验结果进行比较.
Table 6 Comparison of the results of three large-scale simulated database matching experiments
表 6 3 个不同大型模拟指纹库匹配实验结果比较
修正方法 样本视频数 样本 ADU 数 模拟指纹库视频数 k 准确率 查准率 查全率 假阳率
5
HHTF 139 40 215 177 939 2 99.9959% 12.00% 100% 4.1210
5
HHTF 138 37 587 177 738 2 99.9958% 11.85% 100% 4.1910
5
HHTF 277 77 802 205 677 2 99.9958% 10.33% 100% 4.2210
HHTF 139 40 215 177 939 3 100% 100% 100% 0%
HHTF 138 37 587 177 738 3 100% 100% 100% 0%
HHTF 277 77 802 205 677 3 100% 100% 100% 0%
Reed 139 40 215 177 939 2 67.0524% 1.7110 5 100% 32.95%
Reed 138 37 587 177 738 2 68.6022% 1.7910 5 100% 31.40%
Reed 277 77 802 205 677 2 68.1291% 1.5310 5 100% 31.87%
Reed 139 40 215 177 939 3 97.5414% 0.0229% 100% 2.46%
Reed 138 37 587 177 738 3 97.6198% 0.0236% 100% 2.38%
Reed 277 77 802 205 677 3 97.5298% 0.0197% 100% 2.47%
可以看到:用来构造模拟指纹库的样本不同,样本 ADU 的个数不同,模拟出的指纹库规模接近;在参数 k 相
同的情况下,各项指标的差别非常小,这些微小的差别完全可以视为由样本个体差异引起的,对总体的统计结论
是一致的.由表 6 的结果可以看到:只要样本量足够大、样本选择具有独立性和代表性,使用不同的真实样本构
造模拟指纹库,并不影响本文算法的实验结果的通用性.
4 结束语
本文提出了一个大型指纹库场景中加密视频识别的方法,首次将 HTTP 头部特征和 TLS 片段特征作为
ADU 长度复原的拟合特征,提出了一种 ADU 长度精准复原方法 HHTF,对于满足要求的密文数据,可从单个视
频 ADU 的传输长度准确复原出明文 ADU 长度,然后通过理论分析和模拟的大规模指纹库实验也证明:将
HHTF 方法应用于 Facebook 的加密视频识别,在 20 万级指纹库中识别视频达到的准确率、查准率、查全率为
100%,假阳率为 0 只需要 3 个连续的 ADU,所需 ADU 个数是已有研究的十分之一,这大大降低了对密文数据的
采集需求.
本文对视频识别方法的评估使用准确率、查准率、查全率和假阳率这 4 个指标,可全面反映方法的适用性.