Page 301 - 《软件学报》2021年第9期
P. 301

吴森焱  等:融合多种特征的恶意 URL 检测方法                                                        2925


         条件的用户通常会直接返回请求错误,所以会话请求错误的响应码数量更多.而在正常网站的访问过程中,对于
         大部分的用户请求,正常网站都能够正常响应,很少发生请求错误的情况.
             而且,正常网站中使用 HTTPS 进行通信的数量明显大于恶意 URL.我们分析正常网站通常会向认证组织申
         请认证证书,并在访问过程中更多地使用安全的 HTTPS 协议进行会话通信,而恶意 URL 很少能够取得认证组
         织的证书,因此在会话过程中很少使用 HTTPS 协议进行通信.
             此外,恶意服务器通常利用浏览器中存在漏洞的控件进行攻击,因此在会话过程中,恶意服务器会针对不同
         的控件响应特殊类型的资源文件.恶意 URL 经常利用存在漏洞的控件类型包括 Java 和 Adobe Flash  Player 等.
         表 4 为经常被恶意 URL 利用的 5 种资源类型文件类型与 Content-Type 字段的对应表.我们在恶意 URL 会话的
         HTTP 响应头中发现较多响应的特殊资源文件,虽然在正常网站的访问过程中也会响应这些类型的资源文件,
         但是与正常网站相比,恶意 URL 在整个会话过程中响应特殊资源文件的数量更多,而且这些特殊资源文件的大
         小更大.
                                 Table 4    Mapping of resource type and Content-Type
                                   表 4   资源类型与 Content-Type 字段对应表
                                       资源类型              Content-Type 字段
                                         pdf               applicaton/pdf
                                         swf          application/x-shockwave-flash
                                         java                java/*
                                         doc             application/msword
                                        exe/dll        application/x-msdownload
             恶意 URL 在接收到用户的请求后,通常会对用户的客户端环境进行判断,只有符合攻击条件的用户才会被
         导向漏洞利用服务器.在这个过程中,还会进行多次的重定向跳转,导致整个会话过程中重定向链的长度变得较
         长;而在正常网站的会话过程中,较少发生多次的重定向跳转.因此我们认为,使用会话重定向链的最大长度能
         够体现出恶意 URL 这方面的差异.
             我们发现,在恶意 URL 的会话过程中请求的 URL 平均长度相比正常网站会话过程中请求 URL 的平均长
         度更长.为了逃避安全厂商的黑名单检测,恶意 URL 的 URL 地址通常存活时间较短,而且经常更改和变换,攻击
         者通常注册较长的临时域名地址来逃避黑名单的匹配检测.
             (2) Web 会话流程特征
             根据以上对正常网站和恶意 URL 会话过程的统计与分析,针对正常网站和恶意 URL 在会话过程中的重定
         向、会话协议、响应码和响应资源类型等方面存在的差异,共选取相应的 7 个 Web 会话流程特征,见表 5.
                                    Table 5    Extracted Web session flow features
                                           表 5   Web 会话流程特征
                  编号            特征名称                             特征描述
                                                     恶意 URL 多次重定向隐藏真实的恶意服务器,
                   1        服务器端重定向总数
                                                      根据服务器响应码识别服务器端重定向跳转
                                                     恶意 URL 通过响应特殊资源文件来触发存在
                   2     会话响应特殊资源文件总数
                                                   客户端漏洞,根据服务器响应字段识别特殊资源文件
                   3   会话响应特殊资源文件的平均大小               恶意服务器响应的特殊资源文件大小通常较大
                                                    恶意 URL 通过会话响应请求错误来避免被安全软
                   4      会话请求错误响应码总数
                                                      件检测,根据服务器响应码判断会话错误类型
                                                     恶意 URL 在会话过程中很少使用 HTTPS 协议,
                   5      会话使用 HTTPS 协议总数
                                                          根据服务器的响应识别会话协议
                   6     会话过程中 URL 的平均长度               会话中恶意 URL 和跳转 URL 的长度较长
                   7      会话重定向链的最大长度           恶意 URL 会话过程中会多次重定向跳转,会话链的长度较长
   296   297   298   299   300   301   302   303   304   305   306