Page 344 - 《软件学报》2021年第10期
P. 344
3316 Journal of Software 软件学报 Vol.32, No.10, October 2021
个视频的指纹库里依次识别 5 个视频并只给出查全率.从指纹库的规模和算法的评估结果看,该文献的成果不
具有实用性.
图 4(b)中使用加密传输的信息构建密文指纹库也是常用的指纹库构建方法,通常用于无法获得明文指纹
的场景中.
Gu 等人 [23,24] 提出一种从侧信道识别视频的方法,指纹数据来源于传输过程中的吞吐量变化,因此属于密文
指纹,传输指纹是从视频播放时的数据侧信道中提取的,因此这种方法本质上是将密文指纹与传输指纹进行匹
配.测试时指纹库有 200 个视频,查全率为 90%,并没有给出假阳率.该方法要求采集可播放 3 分钟的密文数据,
对应 Facebook 数据为 90 个 ADU.同时,该方法的测试数据是实验网采集,而现实场景中的背景流会干扰该算法
假设的视频流固定传输模式.Gu 等人的结论也指出,该方法无法识别出 ADU,因此尚无法应用在大规模指纹库
场景中.
文献[25]提出了一种识别 Netflix 交互视频用户动作的方法,指纹库是通过用户实际操作的动作结合动作
发生时抓取的密文构建,属于密文指纹库,传输指纹来自于客户端 TLS 记录协议长度,使用的是密文指纹与传输
指纹进行匹配的方法.该文针对一个交互视频中的 10 个选择点构建指纹库,测评结果是该算法达到 96%的查全
率.由于指纹库太小,没有给出假阳率,该成果也无法推广到大规模指纹库.
文献[26]认为一个视频的指纹是固定的,因此多次下载模式是固定的.但该文并没有使用指纹库,该方法对
一个视频的播放模式进行机器学习训练分类器,对不同的视频需要训练不同的分类器,再提取监听到的视频播
放特征进行分类识别.该方法需要对每个视频训练一个分类器,代价太高;而且一个重要的假设是同一个视频在
网络上的传输模式是固定的,这个假设在广域网上并不成立.主干网上单个应用流得到的可用带宽是波动的,导
致每次的传输模式并不是固定的,该文对数据采集环境要求较高,因此并不适合在大规模网络上应用.
总体看来,文献[2326]的密文指纹构建密文指纹库的方法都面临着两个问题:(1) 密文指纹库存在指纹库
内容不确定的问题,方法各不相同导致结果无法具有通用性;(2) 每次对 ADU 加密后的长度并不能保证不变,引
起不确定性的因素包括 HTTP 头部信息每次传输都有可能会变化,每次传输时服务器的性能状态不一样也会导
致 TLS 片段数目不一样,相应地会添加不确定数目的 TLS 片段头部 [29] .这些不确定因素造成一个 ADU 的密文
长度会有多种,使用不确定的长度构建指纹库会为后续匹配带来误差.为了避免使用不确定性信息构建指纹库,
本文研究使用明文指纹构建视频指纹库的方法.
由现有文献分析可见:无论使用明文指纹库还是密文指纹库,现有文献在视频内容识别领域内所做的研究
都处于初始的探索阶段,存在的问题也比较相似:(1) 主要研究点集中在各种匹配算法的优化研究上,但是没有
文献深入研究匹配算法的输入数据是否合理可信,待匹配的信息来源比较混乱,这必然降低了这些方法的通用
性及其评测结果的准确性;(2) 对算法结果的评测指标不全面,这一问题在已有文献中体现为对算法的评测指
标主要为识别的查全率,而假阳率只在个别使用小型指纹库测试的文献中被提到,但在指纹库很小的情况下假
阳率是没有参考价值的;(3) 测试指纹库普遍比较小,评测结论不一定适用于大型指纹库.这些问题说明:这些加
密视频识别研究成果只是初步的尝试,尚无法解决在真实场景中的加密视频识别问题,也说明在加密流量比例
逐步提升的现实场景下,网络安全和网络管理面临的困难.
1.4 本文的研究内容
本文针对加密流量识别研究中的关键问题展开工作,研究加密视频传输指纹的精准还原方法及其在加密
视频识别方面的应用价值.这两个研究内容的关系如图 5 所示.
关键技术:ADU长度精准复原方法HHTF
研究目标:大型明文指纹库中加密视频识别
Fig.5 Key research point of this paper
图 5 本文的关键研究点