Page 339 - 《软件学报》2021年第10期
P. 339
吴桦 等:大型指纹库场景中加密视频识别方法 3311
existing methods cannot be guaranteed. In order to address this problem, this study firstly analyses the reason why the length of the cipher
text of the application data unit (ADU) encrypted by TLS drifts relative to the length of the plaintext. For the first time, HTTP head
feature and TLS fragment features are used as fitting features for ADU length restoration, and then this study proposes an accurate
fingerprint restoration method HHTF for the encrypted ADU, and applies HHTF to the encrypted video recognition. A large fingerprint
database of 200 000 videos was built based on the simulation of real Facebook videos. Theoretical derivation and calculation demonstrate
that the accuracy, precision, and recall rate can reach 100%, and the false positive rate is 0 requiring only one-tenth the numbers of ADUs
of the existing method. The experimental results in simulating large-scale video fingerprint database are consistent with the theoretical
calculations. The application of the HHTF method makes it possible to recognize encrypted transmitted video in large-scale video
fingerprint library scenarios, which is of great practicality and application value.
Key words: encrypted video identification; application data unit (ADU); transmission fingerprint; large-scale video fingerprint database;
transport layer security protocol
互联网最初的设计功能已经远跟不上实际的需求,隐私保护和安全防护是互联网应用必须考虑的问题.利
用 TLS(transport layer security)协议实现数据的端到端加密传输,是最通用的加密传输方法.由于数据重要程度
不一样,有些应用只对用户登录数据加密传输,有些是对所有数据都加密传输.随着硬件成本的下降和人们安全
意识的提高,大趋势是所有数据加密,这些措施为互联网应用提供了很好的安全防护.但是另一方面,加密流量
比重的增加,给网络安全和网络管理带来了极大的挑战.
如何从加密的数据中抽取出网络安全防护和网络管理需要的信息,已成为国家安全部门网络管理中亟待
解决的问题.既要保护普通网民的隐私,也要及时发现 Internet 中传递的危害国家和社会安全的信息,这需要能
够在不解密信息的前提下精准识别特定的被加密信息.
目前,对加密流量的分析主要分为两大类:应用类型识别和内容识别.对加密流量的应用类型识别开展的比
[1]
较早,包括的范围也比较广,包括对加密流量的识别 、对网络流量应用类型的识别 [24] 、对恶意软件流量的识
[8]
别 [57] 、对加密视频播放模式的识别 、对加密视频服务平台的识别 [9,10] 、对加密视频服务质量的识别 [1014] .
这类研究都不涉及到用户信息的具体内容识别.
在网络安全和网络管理领域有较大需求且最具挑战性的是对加密应用内容的识别,包括对视频的识别和
网站访问行为的识别.根据 2018 年思科公司的全球互联网流量研究报告 [15] ,互联网全球流量中超过 70%为视频
流量,预计到 2022 年,视频流量的比例将增长到 80%,并且世界上 TOP 视频服务商都已经采用了加密视频传输
技术.在这个背景下,由于视频传播容易,影响力广,对加密视频的识别已成为亟待解决的问题.与加密视频内容
识别具有同等迫切需求的还包括加密网站访问的识别 [1618] .这两类应用的流量占据了互联网流量的绝大部分,
随着加密传输的普及,对这两类应用内容的识别逐渐成为网络安全管理所面临的挑战.
本文的研究围绕加密视频内容识别展开.对加密视频内容的识别目标是:通过数据传输特征获知被传输视
频的内容标签,而不是对视频的画面内容进行分析,以下简称为加密视频识别.由于应用层信息被加密无法直接
分析,侧信道是对加密数据分析的一种常见途径.现有加密视频识别研究的基本思路是,从网络层和传输层协议
头部信息中提取出应用数据单元(application data unit,简称 ADU)的特征.ADU 是应用层信息被传输的数据单
元 [19] ,在 HTTP 传输协议中,每个 HTTP 请求的资源就是一个 ADU.这些 ADU 的数据量长度和传输顺序构成了
应用层信息的指纹,观测者有可能从这些 ADU 的特征识别出应用层信息.
已有的加密视频识别研究 [2026] 存在 3 个主要问题.
第 1 个问题是现有研究的关注点都在识别算法的研究上,即如何将采集到的加密传输数据与视频指纹
库进行匹配以识别热点视频.但是识别算法的输入信息——待匹配的加密传输数据与指纹库中的指
纹,这两者如何构建,以及由于不同的构建方法带来的数据原始偏差都没有进行深入研究.当指纹库规
模变大后,这些不确定性会极大地影响着这些识别算法的结果;
第 2 个问题是现有研究对算法结果的评价指标不全面,通常只有查全率,少有假阳率的测试指标,特别
是没有大型指纹库场景下查准率和假阳率的评估;
第 3 个问题是现有研究都是基于小型甚至是微型视频指纹库进行的实验验证,实验结果不能反映这些