Page 300 - 《软件学报》2021年第9期
P. 300

2924                                 Journal of Software  软件学报 Vol.32, No.9,  September 2021

         淆恶意代码.恶意代码中,传入 escape 和 unescape 函数的字符串参数的通常较长,而且参数内容中包含敏感字符
         串,用于后续创建恶意标签.
         3.3   Web会话流程特征
             除了以上提出的页面特征和 JavaScript 函数参数特征,我们通过对大量的样本进行分析,发现了恶意 URL
         与正常网站在会话过程中存在的差异,主要体现在会话过程中的重定向、会话协议、响应码和响应资源类型等
         方面.
             (1)  会话样本分析
             我们从恶意流量公布网站 Malware-traffic-analysis 下载了 200 个恶意 URL 会话流量包进行统计与分析,
         这些流量包中包含了恶意 URL 整个攻击过程的全部会话流量.同时作为对比,我们在虚拟机环境中收集了 200
         个访问正常网站的会话流量包,模拟了一系列用户访问正常网站的行为,包括访问社交网站、搜索引擎以及使
         用邮箱和点击分享链接等.
             我们关注用户客户端与网站服务器之间的交互过程,因此提取流量包中网站服务器的响应头信息和响应
         内容.表 3 是从会话流量中提取的整个会话过程中网站服务器数量和重定向次数的统计结果.我们将同一会话
         过程中不同的 IP 对应为不同的网站服务器,从表中可以看出:在一个会话过程中,服务器数量最小值始终为 1 个,
         即最简单的会话只涉及客户端和一台服务器的交互过程;而在恶意 URL 会话过程中,服务器数量最大值为 58
         个,平均值为 7.8 个,这些值都明显大于正常网站会话过程中服务器数量的最大值和平均值.同时,在恶意 URL 会
         话过程中平均会发生 4.8 次的重定向跳转,而正常网站会话过程重定向平均值为 0.45 次.

                     Table 3    Comparison of the number of servers and number of redirects in the session
                                   表 3   会话中服务器数量和重定向数量的对比
                                            会话过程中服务器数量               会话过程中重定向次数
                    类别          数量
                                          最小值     最大值     平均值      最小值     最大值     平均值
                   正常网站         200        1       15      3.2       0       3     0.45
                   恶意 URL       200        1       58      7.8       0      18     4.8

             除了会话过程中,服务器数量和重定向次数方面的差异,我们又从会话流量包中提取了服务器的响应头信
         息,包括协议信息、响应码和响应资源类型等内容.我们对正常网站和恶意 URL 会话流量中响应头信息进行统
         计,如图 8 所示.从图中可以看出:与正常网站的会话过程相比,恶意 URL 会话过程中,相关响应头信息的统计分
         布明显不同.其中,恶意 URL 返回的以 3 开头的服务器端重定向响应码的数量明显高于正常网站会话过程中的
         数量.我们分析原因是,恶意 URL 通常会通过多次服务器端重定向跳转来逃避安全软件的检测.
















                               Fig.8    Comparison of the number of HTTP response types
                                        图 8   HTTP 响应类型数目比较

             同时,从图中可以看出:以 4 开头的客户端错误的响应码和以 5 开头的服务器端错误的响应码数量也明显
         高于正常网站会话过程中的数量.我们分析,这是因为恶意 URL 为了避免被用户察觉到异常,对于不满足攻击
   295   296   297   298   299   300   301   302   303   304   305