Page 457 - 《软件学报》2025年第7期
P. 457
3378 软件学报 2025 年第 36 卷第 7 期
中部署该方法, 当视频被用户在不同的环境中播放从而呈现出新的流量特征时, 由于缺少训练样本, 分类器有极大
可能无法正确识别出视频内容. Liu 等人 [20] 提出了一种基于加密视频流间歇性特征的机器学习模型识别方法. 该
方法利用自适应流媒体技术在传输视频时所呈现的间歇性流量模式特征作为输入, 以 KNN 算法作为分类器, 实
现了良好的识别准确率和召回率. 然而, 为了获取稳定的传输特征, 该方法需要长时间重复采集加密视频传输数
据. 此外, 相同视频在不同网络环境中的数据特征并不一样, 因此会导致模型的失效. 由此可见, 使用机器学习模型
预测视频内容的方法需要大量的训练样本, 并且训练出的分类器无法应用到不同的数据传输环境中.
第 2 类方法将领域知识与机器学习结合, 利用带外构建的加密视频指纹库识别被传输的加密视频, 被称为基
于视频指纹的识别方法. 根据加密视频指纹库构建方法的不同, 可以细分为明文指纹识别和密文指纹识别两种类型.
明文指纹识别方法是指通过带外的方式获取可以唯一标识视频内容的明文信息作为视频指纹, 构建视频明文
指纹库. 对于需要识别的加密流量, 通过对加密视频传输数据进行修正还原构建视频修正指纹, 将视频修正指纹与
明文指纹库中的明文指纹匹配, 就可以识别出该视频内容. 这类方法的关键技术难点是需要准确地从加密流量中
还原出对应的明文指纹, 修正误差过大会导致当指纹库规模增大时的匹配失败和误判增加. Xu 等人 [21] 在其研究中
针对使用动态比特率 (variable bitrate, VBR) 编码的视频, 提出了一个系统 CSI. 该系统通过分析加密视频数据推断
出用户下载的音视频数据片段的大小, 即修正还原出音视频片段的大小, 从而作为视频修正指纹用于视频识别. 但
该系统对于使用 HTTPS 和 QUIC 协议的加密视频数据的还原误差较高, 分别为 1% 和 5%, 对于一个常见的时长
为 5 s、分辨率为 720p 的视频片段, 其大小约为 0.5 MB, 1% 的误差意味着真实值和还原值之间约有 5 000 B 的偏
差, 由于片段通过长度匹配, 5 000 B 的误差将会导致视频片段非常容易被误识为其他视频片段, 在 Xu 等人的后续
实验中, 当还原误差为 5% 时, 利用连续 6 段视频片段对视频进行标识的准确率仅有 90%, 并且没有给出假阳率指
标, 这也说明了 CSI 系统的还原方法并不可行. Reed 等人 [17] 提出了一种能够识别 HTTPS 加密的 Netflix 视频的方
法. 该方法将视频片段大小和顺序作为视频明文指纹, 并通过爬虫等方式构建了一个包含 33 万个视频明文指纹的
指纹库. 该方法主要是使用 Adudump 工具从加密视频流中提取特征构建加密视频传输指纹, 虽然考虑到 HTTP 头
部和 TLS 协议对数据长度造成的影响, 但并未给出具体的解决方法. 该研究在评估实验效果时只给出了识别准确
率, 缺少精准率、召回率等指标数据, 也并未给出能够全面评估算法有效性的 F1 得分. Wu 等人 [22] 提出了面向
HTTP/1.1 协议的精准指纹还原方法, 实现了在大型指纹库场景中进行加密视频识别的方法, 并验证了该方法的准
确率、查准率、查全率、假阳率指标. 但是, 该方法使用的大型指纹库为模拟指纹库, 且该方法针对的是通过 HTTP/1.1
协议传输的加密视频流量, 与 HTTP/2 多路复用的流量特征有较大差别, 由于现网中使用 HTTP/2 协议传输的视频
流量逐渐增多, 因此需要针对使用 HTTP/2 协议的视频平台展开研究.
当难以获得视频明文信息来构建视频明文指纹库时, 还可以通过构建视频密文指纹库实现加密视频的识别,
即密文指纹识别方法. 视频密文指纹识别方法是从采集到的加密视频传输数据里提取传输流量特征, 将提取到的
传输特征和视频名称构成一个传输实例并作为视频密文指纹, 从而构建视频密文指纹库. 需要进行识别时, 与密文
指纹具有相似传输特征的视频被判断为同一个视频. Gu 等人 [23] 提出了一种通过加密视频流的侧信道攻击方式识
别视频的方法. 该方法按照固定时长将视频传输数据分段, 并将这些传输数据的段落流量特征作为视频指纹. 由于
其指纹不针对视频明文片段进行长度还原, 仅提取密文特征, 因此属于密文指纹. 该方法利用在侧信道采集的加密
视频数据传输特征构建视频密文指纹库, 识别视频时, 利用视频传输指纹与密文指纹库中的密文指纹进行比对, 从
而识别视频. Afandi 等人 [24] 也采用了密文指纹识别视频的方法, 考虑到影响密文指纹稳定性的因素, 采用了一种
差分指纹作为视频的密文指纹, 这种方法在一定程度上消除了由于视频分辨率自适应性切换和网络环境变化造成
的加密视频流量特征前后的不一致性, 保证了在固定周期内的流量特征的相对稳定性. 在进行验证时, 他们采集
了 86 组视频传输数据, 其中一半是 VPN 流量, 另一半是正常的 HTTPS 流量, 测试结果显示: 对于非 VPN 流量, 其分
类准确率为 90%; 对于 VPN 流量, 其准确率仅有 59%. 该研究的实验数据集偏小, 且识别的准确率不高. Bae 等人 [25]
提出了一种针对 LTE 网络的视频识别攻击方法. 该方法以提取的加密视频流量特征作为视频密文指纹, 在包含
100 个视频的加密视频数据集中可以实现 97.2% 左右的识别准确率. 但是, 为了提取稳定的传输特征构建视频密
文指纹库, 该方法需要在相同 LTE 网络中重复采集 30 余次目标视频传输流量. 在使用密文指纹识别加密视频的

