Page 162 - 《软件学报》2021年第6期
P. 162

1736                                     Journal of Software  软件学报 Vol.32, No.6,  June 2021

         行为日志.本节将介绍用户交互行为基准的生成过程,根据用户历史 Web 交互日志数据生成用户交互行为画像.
             定义 1(交互行为记录).  用户在系统中的一条交互行为记录 i 包含 m 个属性,记作:
                                  i={a 1 ,a 2 ,a 3 ,…,a m |a 1 ∈A 1 ,a 2 ∈A 2 ,a 3 ∈A 3 ,…,a m ∈A m }.
             本文中,交互记录属性包括用户标号、会话编号、登录时间、页面编号、进入页面时间、页面持续时间,
         即交互行为 i =   {a a ses no  ,a time ,a page _ no ,a start  ,a duration }.即:给定一个用户标号 u,则该用户的交互行为日志是其截至
                        ,
                       id
                                             u
                                           u
         当前日期的历史交互记录集合,记为 R =            { , , ,..., }ii i u 3  i u n  ,其中,n 是该用户的交互记录条数,即 n=|R u |.用户的交互
                                             2
                                           1
                                       u
         行为记录日志中的正常行为即 T u ={t∈R u |label=true},其中,n ut =|T u |.对于用户的正常交互行为,我们需要进一步分
         析处理得到用户的交互行为画像.将用户的交互行为画像的各个属性定义如下:
                                          ⎧ A =  u  {a ∈  A  | r ∃  ∈  r  : a∈  } r
                                          ⎪ A = ⎪  1 u  {a ∈  A 1  | r ∃  ∈  r u  : a∈  } r
                                          ⎨  2     2     u     ,
                                          ⎪ …
                                          ⎪ A =  u  {a∈  | r ∃  ∈  ∈
                                          ⎩  m    A m    r u  : a r }
         其中, A ⊆  u  AA ⊆  ,  u  A  ,..., A ⊆  u  A .不失一般性,我们定义 A =  {, ,..., }aa i  a .
                                                      u
                                                           i
                                                                 i
               1   1  2  2    m   m                   1    1  1  1
             定义 2(系统登录时间属性).  用户 u 的系统登录时间属性定义为 n 个时间段内用户登录概率的 n 元组,记为
            u
                                                                  u
         LTA =(time 1 ,time 2 ,…,time n ).在用户 u 的正常交互行为日志 R u 中,取出 A time  作为该用户的登录系统的时间集合,
            u
         且 n time  = | A u time  | .为了区分不同用户的登录时间偏好和习惯,我们将登录时间划分为 12 个区间,计算 A            u time  中的每
         个元素 a  i time  对应的时间区间,并为各个元素打上标签,得到以下子集:
                                      lta =  {a time  ∈  A u  | 0≤ logintime <  2},
                                        1   i    time
                                      lta =  {a time  ∈  A u  | 2≤ logintime <  4},
                                        2   i    time
                                      lta =  3  {a i time  ∈  A time  | 4≤ logintime <  6},
                                                 u
                                      ...,
                                                 u
                                      lta =  12  {a time  ∈  A time  | 22≤ logintime <  24}.
                                            i
                          | lta  |  | lta  |     | lta  |
             以此求出 time =  1  1  ,time =  2  2  ,...,time =  12  12  ,从而得到该用户的登录时间属性:
                                      u
                            u
                           n time    n time       n u time
                                           u
                                        LTA =(time 1 ,time 2 ,time 3 ,…,time 12 ).
                                                                    u
             定义 3(工作时间登录属性).  用户 u 的工作时间登录属性定义为 WTA =(isworktime,noworktime),表示该用
                                                                                             u
         户的登录时间是否发生在工作日的工作时间的概率,其中,工作日不包含双休日和法定节假日.根据集合 A                                   time  中
         的每一个元素,判断其是否属于工作时间.依据判断结果为每个元素打上 T 和 F 的标签,代表工作时间登录和非
         工作时间登录,从而得到两个子集如下:
                                           wta =  1  {a∈  A time  | label =  T },
                                                    u
                                                    u
                                           wta =  2  {a ∈  A time  | label =  F }.
                                  | wta  |        | wta  |
             因此可以得出 isworktime =     1  ,noworktime =  2  ,从而得到该用户的工作时间登录属性:
                                                    u
                                    u
                                   n time          n time
                                            u
                                         WTA =(isworktime,noworktime).
                                                           u
             定义 4(登录间隔属性).  用户 u 的登录间隔属性定义为 LIA =(period 1 ,period 2 ,…,period n ),表示该用户的登录
         时间间隔发生在各区间的概率,反映用户登录系统的交互行为习惯.根据集合 A                           u  中的每一个元素,依次计算其
                                                                       time
         登录时间间隔,得到集合 A        u period  ,其中, n u period  = | A u period  | .对于集合 A u period  中各元素的计算公式如下:
                                              a  period  =  a time  −  a time  .
                                               i     i   i− 1
             求出集合 A   u period  的第一四分位数 Q 1 、第二四分位数 Q 2 、第三四分位数 Q 3 和上限 Q max 、下限 Q min ,将集合
         分为 5 个子集,即:
   157   158   159   160   161   162   163   164   165   166   167