Page 470 - 《软件学报》2025年第7期
P. 470
吴桦 等: 面向 HTTP/2 流量多路复用特征的加密视频识别方法 3391
态调整滑动窗口大小的方法实现这一匹配过程. 这一过程将得到修正指纹与明文指纹库中各指纹分片组合的匹配
结果及其相匹配的概率, 供视频识别模型使用.
图 10 中给出了一个修正指纹分片通过在明文指纹上的滑动匹配得到候选指纹分片组合的原理. 由于音视频
片段会组合传输, 因此一个修正指纹分片可能与视频明文指纹库中任一视频的 1 个明文指纹分片或者多个连续分
片的组合相匹配. 为了实现修正指纹分片与明文指纹分片一对多的匹配, 本文采用动态调整滑动窗口大小的方法
进行匹配. 首先, 将滑动窗口大小 WS (WindowSize) 分别设置为 1–n, 并在视频指纹库的明文指纹上滑动, 其中, n
与视频平台的内容分发机制有关, 需要根据实际测定获得. 在窗口滑动过程中, 窗口 P 内的指纹分片构成一个指纹
分片组合与修正指纹分片进行误差范围匹配. 例如, 图 10 中的明文指纹 V i 包含 8 个明文指纹分片 S 1 ,S 2 ,...,S 8 , 当
滑动窗口大小为 3 时, 指纹分片组合为 S 1 +S 2 +S 3 ,S 2 +S 3 +S 4 ,...,S 6 +S 7 +S 8 随后, 将修正指纹分片与所有指纹
分片组合进行范围匹配. 匹配的误差范围 [−T, T ] 需要根据修正指纹分片的修正误差来设定, 本文已在第 5.5 节中
给出了修正指纹分片 CDU 长度修正的误差分布, 并计算了其标准差为 8.84, 且其误差分布基本符合正态分布, 因
此本文使用 3 倍标准差即 27 作为匹配时的误差阈值上限, 相应的−27 为误差阈值下限, 因而匹配误差范围为
[−27, 27]. 最后, 本文基于匹配误差得到每个被匹配到的指纹分片组合的匹配概率, 由于误差分布基本符合正态分
布, 因此匹配误差可以通过标准差为 8.84 的正态分布概率计算公式获得. 通过以上过程, 就可以得到与各修正指
纹分片相匹配的明文指纹分片组合及其相匹配的概率.
修正指纹 CDU 1 CDU 2 CDU 3 CDU 4 CDU n
匹配
WindowSize 窗口 P
WS=1 S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8
明文指纹
WS=2 S 1 +S 2 S 2 +S 3 S 3 +S 4 S 4 +S 5 S 7 +S 8
WS=3 S 1 +S 2 +S 3 S 2 +S 3 +S 4 S 6 +S 7 +S 8 V i =[S 1 , S 2 , , S 8 ]
···
视频明文指纹库
窗口 P
WS=7 S 1 +S 2 +···+S 7 S 2 +S 3 +···+S 8
n
图 10 修正指纹分片与视频明文指纹滑动匹配原理
然而, 随着视频指纹库规模的增大, 修正指纹所需要进行匹配的次数也会增加, 进而导致加密视频的识别时间
急剧增加. 若继续使用滑动窗口算法进行指纹匹配, 则难以满足在大规模指纹库场景下的时间开销要求. 因此, 本
文在滑动窗口算法的基础上设计了两种优化方法: (1) 设计内存键值对数据库加快匹配速度; (2) 将匹配过程划分
为全匹配和快速匹配两个阶段减少匹配次数. 通过这两种优化方法, 能够大大缩短匹配时间, 使得本文方法在大规
模指纹库场景下能够实现快速匹配.
(1) 设计内存键值对数据库加快匹配速度
本文根据图 10 中视频明文指纹滑动组合的原理在内存中生成了键值对数据库. 在键值对数据库中, 每个
键为一个明文指纹分片组合的长度, 键值为明文指纹分片组合对应的描述信息 (例如视频 ID、 分辨率、 组合
片段等), 对于键相同的键值对, 本文使用了链表结构进行存储. 由视频明文指纹生成的键值对数据库的结构如
图 11 所示.
在修正指纹匹配过程中, 对于每个修正指纹分片, 根据其大小和匹配误差范围, 在键值对数据库中确定修正指
纹分片匹配到的键的范围, 接着遍历匹配到的各个键所对应的链表, 获取明文指纹分片组合匹配结果并计算匹配
概率.

