Page 474 - 《软件学报》2025年第7期

P. 474

吴桦等: 面向 HTTP/2 流量多路复用特征的加密视频识别方法 3395

密视频数据所对应的明文指纹. 综上所述, 以隐马尔可夫模型和维特比算法为基础的加密视频识别模型很好地解
决了视频分辨率切换给视频识别带来的困难.

O 1 O 2 O 3 O n

x 11 x 21 x 31 x n1
模型求解
HMM S x 12 x 22 x 32 x n2 E 识别结果
Viterbi

x 1m x 2m x 3m x nm
t=0 t=1 t=2 t=3 t=n t=n+1
图 14 基于 HMM 识别加密视频

7 加密视频识别实验与结果分析

7.1 实验数据与评估测度
为了全面评估本文方法的实用性, 本文的实验场景包括: (1) 小型指纹库和大型指纹库的实验场景; (2) 固定视
频分辨率和自适应视频分辨率的实验场景; (3) 明文指纹和密文指纹的实验场景. 根据以上实验场景的需要, 本文
构建了相应实验的数据集. 首先, 本文针对 Facebook 和 Instagram 平台分别采集了 31 万条和 9 万条视频明文指纹,
构建起一个包含 40 万条视频明文指纹的视频明文指纹数据库. 其次, 针对 Facebook 和 Instagram 平台, 本文采集
了包含体育、音乐、综艺、动漫、动作、风景这 6 种类型, 时长分布在 90–900 s 之间的视频播放时的加密传输
数据, 其数量统计如表 3 所示. 此外, 为满足实验场景 3 中密文指纹识别场景的要求, 本文额外选取了 22 个视频,
每个视频重复采集 40 次, 总计 880 个加密传输数据, 这些数据包含在 Facebook 的自适应分辨率数据集中.

表 3 加密视频传输数据数量统计

平台类型播放视频个数
固定分辨率 3 150
Facebook
自适应分辨率 1 290
固定分辨率 2 940
Instagram
自适应分辨率 276

考虑到在大型指纹库场景下, 视频识别类别不均衡的问题, 本文使用加权平均方法进行评估测度的计算, 选择
准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1 得分 (F1_Score) 这几个测度来评估实验的结果. 这
些测度的计算都依赖于真阳性 (true positive, TP)、真阴性 (true negative, TN)、假阳性 (false positive, FP)、假阴性
(false negative, FN) 这 4 个参数.

7.2 实验结果与理论分析
(1) 明文视频片段长度作为视频指纹的可行性验证
为了验证使用视频明文指纹在大型视频明文指纹库中识别视频的可行性, 本文对真实视频的片段长度的分布
情况进行了研究.
虽然无法获取一个大型视频平台的所有视频片段长度信息, 但根据统计学知识可知, 只要用于研究的样本具
有一定的代表性和独立性, 当样本容量足够大时, 就可以使用样本的分布情况评估整体统计情况. 本文所采集的
40 万条视频明文指纹来源于视频平台中真实视频的片段长度信息, 包含体育、音乐、综艺、动漫、动作、风景

469 470 471 472 473 474 475 476 477 478 479