Page 162 - 《软件学报》2021年第6期
P. 162
1736 Journal of Software 软件学报 Vol.32, No.6, June 2021
行为日志.本节将介绍用户交互行为基准的生成过程,根据用户历史 Web 交互日志数据生成用户交互行为画像.
定义 1(交互行为记录). 用户在系统中的一条交互行为记录 i 包含 m 个属性,记作:
i={a 1 ,a 2 ,a 3 ,…,a m |a 1 ∈A 1 ,a 2 ∈A 2 ,a 3 ∈A 3 ,…,a m ∈A m }.
本文中,交互记录属性包括用户标号、会话编号、登录时间、页面编号、进入页面时间、页面持续时间,
即交互行为 i = {a a ses no ,a time ,a page _ no ,a start ,a duration }.即:给定一个用户标号 u,则该用户的交互行为日志是其截至
,
id
u
u
当前日期的历史交互记录集合,记为 R = { , , ,..., }ii i u 3 i u n ,其中,n 是该用户的交互记录条数,即 n=|R u |.用户的交互
2
1
u
行为记录日志中的正常行为即 T u ={t∈R u |label=true},其中,n ut =|T u |.对于用户的正常交互行为,我们需要进一步分
析处理得到用户的交互行为画像.将用户的交互行为画像的各个属性定义如下:
⎧ A = u {a ∈ A | r ∃ ∈ r : a∈ } r
⎪ A = ⎪ 1 u {a ∈ A 1 | r ∃ ∈ r u : a∈ } r
⎨ 2 2 u ,
⎪ …
⎪ A = u {a∈ | r ∃ ∈ ∈
⎩ m A m r u : a r }
其中, A ⊆ u AA ⊆ , u A ,..., A ⊆ u A .不失一般性,我们定义 A = {, ,..., }aa i a .
u
i
i
1 1 2 2 m m 1 1 1 1
定义 2(系统登录时间属性). 用户 u 的系统登录时间属性定义为 n 个时间段内用户登录概率的 n 元组,记为
u
u
LTA =(time 1 ,time 2 ,…,time n ).在用户 u 的正常交互行为日志 R u 中,取出 A time 作为该用户的登录系统的时间集合,
u
且 n time = | A u time | .为了区分不同用户的登录时间偏好和习惯,我们将登录时间划分为 12 个区间,计算 A u time 中的每
个元素 a i time 对应的时间区间,并为各个元素打上标签,得到以下子集:
lta = {a time ∈ A u | 0≤ logintime < 2},
1 i time
lta = {a time ∈ A u | 2≤ logintime < 4},
2 i time
lta = 3 {a i time ∈ A time | 4≤ logintime < 6},
u
...,
u
lta = 12 {a time ∈ A time | 22≤ logintime < 24}.
i
| lta | | lta | | lta |
以此求出 time = 1 1 ,time = 2 2 ,...,time = 12 12 ,从而得到该用户的登录时间属性:
u
u
n time n time n u time
u
LTA =(time 1 ,time 2 ,time 3 ,…,time 12 ).
u
定义 3(工作时间登录属性). 用户 u 的工作时间登录属性定义为 WTA =(isworktime,noworktime),表示该用
u
户的登录时间是否发生在工作日的工作时间的概率,其中,工作日不包含双休日和法定节假日.根据集合 A time 中
的每一个元素,判断其是否属于工作时间.依据判断结果为每个元素打上 T 和 F 的标签,代表工作时间登录和非
工作时间登录,从而得到两个子集如下:
wta = 1 {a∈ A time | label = T },
u
u
wta = 2 {a ∈ A time | label = F }.
| wta | | wta |
因此可以得出 isworktime = 1 ,noworktime = 2 ,从而得到该用户的工作时间登录属性:
u
u
n time n time
u
WTA =(isworktime,noworktime).
u
定义 4(登录间隔属性). 用户 u 的登录间隔属性定义为 LIA =(period 1 ,period 2 ,…,period n ),表示该用户的登录
时间间隔发生在各区间的概率,反映用户登录系统的交互行为习惯.根据集合 A u 中的每一个元素,依次计算其
time
登录时间间隔,得到集合 A u period ,其中, n u period = | A u period | .对于集合 A u period 中各元素的计算公式如下:
a period = a time − a time .
i i i− 1
求出集合 A u period 的第一四分位数 Q 1 、第二四分位数 Q 2 、第三四分位数 Q 3 和上限 Q max 、下限 Q min ,将集合
分为 5 个子集,即: