Page 356 - 《软件学报》2021年第10期
P. 356

3328                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                        只有 4 个指标同时达到理想值才能判断算法是可用的;
                    (2)  在表 5 的结果中,使用 HHTF 方法,只要 2 个连续的 ADU 就可以达到理想的识别指标,但是对比表 3
                        的实验结果可以看到:当指纹库规模达到 20 万数量级时,2 个连续的 ADU 进行匹配的查准率只有
                        10.33%,会有大量其他视频被误识为识别视频,必须使用 3 个连续 ADU 进行匹配.这说明,随着指纹库
                        规模的扩大,FP 事件必然会上升,因此对小型指纹库适用的识别参数在大型指纹库里未必适用,只有
                        直接在大型指纹库中进行算法验证,结果才具有可信度.
                 3.7   实验结果通用性验证
                    上述实验证明了必须使用大型指纹库才能真正验证算法的可行性.由于无法得到真实的大型明文指纹库,
                 本文第 3.1 节基于统计学原理,使用 277 个 Facebook 视频的 77 802 个 ADU 长度统计特征,构建了一个模拟的
                 大型视频指纹库进行验证.
                    为了验证实验结果与模拟指纹库所使用的真实视频无关,本节将 277 个视频分成不相交的 2 组视频集:第 1
                 组包括 139 个 Facebook 视频,含有 40 215 个 ADU;第 2 组包括 138 个 Facebook 视频,含有 37 587 个 ADU.按照
                 同样的方法,先分别统计 ADU 长度 PDF,再基于 AUD 长度的 PDF,按照第 3.1 节所述的方法构造两个大型模拟
                 数据库,除了完全不相交的两组真实视频外,所有模拟视频构造过程中,ADU 长度遵循真实的 Facebook 视频
                 ADU 长度 PDF,各视频长度使用了一定的随机变化,因此这两个大型指纹库是不同的.使用同样的匹配方法,得
                 到两组实验结果.将这两组实验结果与第 3.5 节中的实验结果全部列入表 6,对 3 个不同大型模拟指纹库匹配实
                 验结果进行比较.
                        Table 6    Comparison of the results of three large-scale simulated database matching experiments
                                        表 6  3 个不同大型模拟指纹库匹配实验结果比较
                      修正方法    样本视频数     样本 ADU 数   模拟指纹库视频数       k   准确率     查准率     查全率     假阳率
                                                                                                  5
                       HHTF      139       40 215      177 939    2  99.9959%  12.00%   100%   4.1210
                                                                                                  5
                       HHTF      138       37 587      177 738    2  99.9958%  11.85%   100%   4.1910
                                                                                                  5
                       HHTF      277       77 802      205 677    2  99.9958%  10.33%   100%   4.2210
                       HHTF      139       40 215      177 939    3   100%     100%   100%     0%
                       HHTF      138       37 587      177 738    3   100%     100%   100%     0%
                       HHTF      277       77 802      205 677    3   100%     100%   100%     0%
                        Reed     139       40 215      177 939    2  67.0524%  1.7110 5  100%  32.95%
                        Reed     138       37 587      177 738    2  68.6022%  1.7910 5  100%  31.40%
                        Reed     277       77 802      205 677    2  68.1291%  1.5310 5  100%  31.87%
                        Reed     139       40 215      177 939    3  97.5414%  0.0229%  100%   2.46%
                        Reed     138       37 587      177 738    3  97.6198%  0.0236%  100%   2.38%
                        Reed     277       77 802      205 677    3  97.5298%  0.0197%  100%   2.47%
                    可以看到:用来构造模拟指纹库的样本不同,样本 ADU 的个数不同,模拟出的指纹库规模接近;在参数 k 相
                 同的情况下,各项指标的差别非常小,这些微小的差别完全可以视为由样本个体差异引起的,对总体的统计结论
                 是一致的.由表 6 的结果可以看到:只要样本量足够大、样本选择具有独立性和代表性,使用不同的真实样本构
                 造模拟指纹库,并不影响本文算法的实验结果的通用性.
                 4    结束语

                    本文提出了一个大型指纹库场景中加密视频识别的方法,首次将 HTTP 头部特征和 TLS 片段特征作为
                 ADU 长度复原的拟合特征,提出了一种 ADU 长度精准复原方法 HHTF,对于满足要求的密文数据,可从单个视
                 频 ADU 的传输长度准确复原出明文 ADU 长度,然后通过理论分析和模拟的大规模指纹库实验也证明:将
                 HHTF 方法应用于 Facebook 的加密视频识别,在 20 万级指纹库中识别视频达到的准确率、查准率、查全率为
                 100%,假阳率为 0 只需要 3 个连续的 ADU,所需 ADU 个数是已有研究的十分之一,这大大降低了对密文数据的
                 采集需求.
                    本文对视频识别方法的评估使用准确率、查准率、查全率和假阳率这 4 个指标,可全面反映方法的适用性.
   351   352   353   354   355   356   357   358   359   360