Page 403 - 《软件学报》2024年第6期
P. 403

钱忠胜 等: 融合自适应周期与兴趣量因子的轻量级               GCN  推荐                                  2979


                 应浏览周期内的某一个浏览时刻. 其中, 兴趣程度只能是周期跨度中的某一时间轴{t 1j , t 2j , t 3j , t 4j }直线上任一时刻
                 中用户对目标项目的兴趣表现, 而本文将同一用户对目标项目的不同历史浏览周期或不同用户对目标项目的同一
                 浏览周期置于同一时间平面内进行研究, 因而, 兴趣形态不受单一跨度或维度的约束, 可为                            t i 中的任一时刻中用
                                                                                         j
                 户对目标项目的兴趣表现.

                                                  t 40   t 41  t 42   t 43
                                                                            跨
                                                                            度
                                                  t 30   t 31  t 32   t 33

                                                  t 20   t 21  t 22   t 23

                                                                 T P
                                                  t 10   t 11  t 12   t 13
                                                                         时间

                                                维度
                 反映用户的行为信息, 不易受用户及环境的影响.
                                                   以前        现在        未来
                                                            (基点)
                                                     图 3 兴趣表现示例

                    兴趣形态更适用于分析项目主体下的深度信息. 进一步考虑到用户对项目在历史记录中可能存在多种兴趣形
                 态, 而当前的兴趣形态主要由最近一段时间的数据起主导作用. 我们在不舍弃历史数据的情况下, 指定一个距离当
                                                                                   T β  .
                 前时刻跨度合适的时间周期, 综合该周期内的行为记忆来计算浏览次数                       T α  和浏览周长
                    浏览次数    T α  是一个标量, 必须为整数, 如公式      (3) 所示:
                                                   T α = a%b (b = 1,2,3,...)                          (3)

                    浏览周长    T β  则为倒数第  T α  次行为的时间戳开始, 每两个相邻时间戳差值的总和, 如公式               (4) 所示:
                                                        ∑  α
                                                     T β =    (t i+1 −t i )                           (4)
                                                           i=α−T α
                 其中, t i 代表第  i 次浏览行为的时间戳.
                    可见, 所设计的浏览次数        T α  和浏览周长  T β  对项目的近期兴趣形态有着关键作用, 根据这些因素可准确地对
                 兴趣进行   K  均值聚类, 进而利用线性回归生成自适应周期.
                  3.2.1    基于  K  均值的兴趣形态聚类
                    项目评分或评价在推荐中一直被认为是最能直观反映用户兴趣程度的信息, 但其稀疏性高、代表性不强等问
                 题, 导致推荐者不得不从更广泛角度去研究用户兴趣. 下面介绍本文确定用户兴趣程度的方法.
                    模型在学习用户的浏览行为规律过程中, 不仅要区别用户的多种兴趣表现                         (比如, 长期兴趣和短期兴趣), 还需
                 关注同种兴趣的兴趣形态分布           (比如, 长期兴趣的变化情况). 因此, 与传统模型根据用户基本信息与项目评价等信
                 息计算相似度的方式不同, 本文主要利用             T α  和  T β  提取用户特征, 进而转换成向量表示用以聚类. 其优势是, 这种
                 考虑用深度信息融合用户数据的方式, 不易受缺失值或噪声的干扰, 且                      T α  和  T β  都是数值标量, 更直观地、客观地

                    K  均值算法是典型的基于距离的聚类方法, 在数值特征的聚类中表现优秀, 其技术原理相对轻量, 十分适用于
                 本文模型. 算法采用距离作为评判相似度的标准, 距离越大, 两者间的相似度越小. 就用户对项目的第                              j 个特征的
                 任意两个兴趣, 分别用向量        u j,m , u j, 表示, 两者间的距离采用 Euclidean  距离  (欧氏距离) 度量, 如公式  (5) 所示:
                                           n
                                                         √
                                                           ∑
                                                             k
                                                  d(m,n) =     (u j,m −u j,n ) 2                      (5)
                                                             j=1
                 其中, k 表示模型中特征的数量.
                    将每个用户对同一类项目的           T α  和  T β  作为在该项目类型中用户的标识, 对用户进行分类: ① 随机选取            k 个标
   398   399   400   401   402   403   404   405   406   407   408