Page 301 - 《软件学报》2021年第9期
P. 301
吴森焱 等:融合多种特征的恶意 URL 检测方法 2925
条件的用户通常会直接返回请求错误,所以会话请求错误的响应码数量更多.而在正常网站的访问过程中,对于
大部分的用户请求,正常网站都能够正常响应,很少发生请求错误的情况.
而且,正常网站中使用 HTTPS 进行通信的数量明显大于恶意 URL.我们分析正常网站通常会向认证组织申
请认证证书,并在访问过程中更多地使用安全的 HTTPS 协议进行会话通信,而恶意 URL 很少能够取得认证组
织的证书,因此在会话过程中很少使用 HTTPS 协议进行通信.
此外,恶意服务器通常利用浏览器中存在漏洞的控件进行攻击,因此在会话过程中,恶意服务器会针对不同
的控件响应特殊类型的资源文件.恶意 URL 经常利用存在漏洞的控件类型包括 Java 和 Adobe Flash Player 等.
表 4 为经常被恶意 URL 利用的 5 种资源类型文件类型与 Content-Type 字段的对应表.我们在恶意 URL 会话的
HTTP 响应头中发现较多响应的特殊资源文件,虽然在正常网站的访问过程中也会响应这些类型的资源文件,
但是与正常网站相比,恶意 URL 在整个会话过程中响应特殊资源文件的数量更多,而且这些特殊资源文件的大
小更大.
Table 4 Mapping of resource type and Content-Type
表 4 资源类型与 Content-Type 字段对应表
资源类型 Content-Type 字段
pdf applicaton/pdf
swf application/x-shockwave-flash
java java/*
doc application/msword
exe/dll application/x-msdownload
恶意 URL 在接收到用户的请求后,通常会对用户的客户端环境进行判断,只有符合攻击条件的用户才会被
导向漏洞利用服务器.在这个过程中,还会进行多次的重定向跳转,导致整个会话过程中重定向链的长度变得较
长;而在正常网站的会话过程中,较少发生多次的重定向跳转.因此我们认为,使用会话重定向链的最大长度能
够体现出恶意 URL 这方面的差异.
我们发现,在恶意 URL 的会话过程中请求的 URL 平均长度相比正常网站会话过程中请求 URL 的平均长
度更长.为了逃避安全厂商的黑名单检测,恶意 URL 的 URL 地址通常存活时间较短,而且经常更改和变换,攻击
者通常注册较长的临时域名地址来逃避黑名单的匹配检测.
(2) Web 会话流程特征
根据以上对正常网站和恶意 URL 会话过程的统计与分析,针对正常网站和恶意 URL 在会话过程中的重定
向、会话协议、响应码和响应资源类型等方面存在的差异,共选取相应的 7 个 Web 会话流程特征,见表 5.
Table 5 Extracted Web session flow features
表 5 Web 会话流程特征
编号 特征名称 特征描述
恶意 URL 多次重定向隐藏真实的恶意服务器,
1 服务器端重定向总数
根据服务器响应码识别服务器端重定向跳转
恶意 URL 通过响应特殊资源文件来触发存在
2 会话响应特殊资源文件总数
客户端漏洞,根据服务器响应字段识别特殊资源文件
3 会话响应特殊资源文件的平均大小 恶意服务器响应的特殊资源文件大小通常较大
恶意 URL 通过会话响应请求错误来避免被安全软
4 会话请求错误响应码总数
件检测,根据服务器响应码判断会话错误类型
恶意 URL 在会话过程中很少使用 HTTPS 协议,
5 会话使用 HTTPS 协议总数
根据服务器的响应识别会话协议
6 会话过程中 URL 的平均长度 会话中恶意 URL 和跳转 URL 的长度较长
7 会话重定向链的最大长度 恶意 URL 会话过程中会多次重定向跳转,会话链的长度较长