Page 399 - 《软件学报》2024年第6期
P. 399

钱忠胜 等: 融合自适应周期与兴趣量因子的轻量级               GCN  推荐                                  2975


                  1   引 言

                    推荐系统主要是在用户需求不明确或复杂时, 能结合历史行为来挖掘用户的特征、偏好等信息, 最终为用户
                 提供服务以匹配相应需求.
                                                 [1]
                    协同过滤    (collaborative filtering, CF) 作为推荐领域中经典的算法之一, 近几十年来得到了广泛的发展和应
                 用. 它通过结合不同群体       (用户和项目) 之间的相似规律来实现评分填充或项目推荐. 基于协同过滤的推荐模型能
                 较充分地利用用户的全局信息, 获取较好的推荐精度, 但单一的协同过滤推荐模型对于数据的完整性要求极高, 故
                 在实际使用中, 数据稀疏性、训练效率低等问题是这一类模型的通病. 而不可否认的是, 评分、浏览等基础信息确
                 实最能展现用户兴趣也极易从中获取兴趣. 因此, 纵向深挖用户基础信息以获取深度信息                            (如本文的自适应周期、
                 兴趣量因子等) 的意义并不亚于横向融入近期热门辅助信息的作用. 换句话说, 基础信息中蕴含的大量深度信息在
                 传统推荐模型中难以挖掘或易过拟合, 这种局限性导致很多推荐模型盲目地朝着融入更多辅助信息的方向发展,
                 使得模型变得异常复杂.
                    基于深度学习的推荐模型对挖掘用户-项目间的非线性关系有着独特优势, 且其抽象编码能力可表示更高层
                    协同过滤是一种利用用户或项目间相似度来预测的经典算法
                 次的交互信息, 解决了很多传统推荐模型面临的问题, 其中采用多种神经网络组合成的混合神经网络                                 [2] 表现出的
                 优势更为明显. 近些年热门的基于图卷积网络              (graph convolutional network, GCN) 的推荐模型  [3−5] , 采用  GCN  方法
                 将用户-项目图结构信息输入模型中, 最大程度上保留了潜在信息, 能很好地实现协同过滤的思想. 然而, 这些工作
                 尽管也关注用户的基础信息, 但对用户和项目的高阶交互信息挖掘程度仍较浅. 此外, 很多研究采用繁琐的操作来
                 适应结构更复杂的数据, 导致模型的复杂度成倍增加. 数据的庞杂性加大了对复杂技术的依赖, 使模型构件冗余的
                 现象愈加严重. 但事实上, 结合传统经典技术, 或轻量级神经网络技术的推荐, 不仅能降低复杂度, 性能也并不逊
                 色, 因此, 挖掘合适的深度信息对模型推荐性能的提升至关重要.
                    针对上面的问题, 本文以深度信息和轻量级推荐为基础                   (其中, 深度信息主要指自适应周期和兴趣量因子, 轻
                 量级则主要体现在模型所运用的技术复杂度方面), 提出一种融合自适应周期与兴趣量因子的轻量级                                 GCN  推荐方
                 法  (lightweight GCN recommendation method combining adaptive period and interest factor, LG_APIF). 主要工作如下.
                    1) 结合艾宾浩斯     (Ebbinghaus) 遗忘曲线构建用户兴趣模型, 用记忆规律来模拟用户的兴趣变化, 保证用户长
                 期兴趣存活性的同时, 充分发掘潜在短期兴趣.
                    2) 引入自适应周期和兴趣量因子等深度信息, 采用聚类和线性回归技术对其求解, 这在细化用户兴趣变化过
                 程的同时, 去除传统      GCN  中特征融合等冗余操作, 使模型更有效地学习嵌入表示.
                    3) 利用  GCN  技术传播用户-类型-项目三元图结构的信息, 使用户的潜在嵌入能融合更多的协作信号, 且让图
                 卷积层能更关注于拟合嵌入关系, 而不易受其他操作带来的噪声影响.
                    4) 基于  4  个数据集和  8  个经典的相关对比模型, 设计消融、对比、优化等不同类型实验, 由分析结果表明, 模
                 型  LG_APIF  的整体效果最佳, 进一步论证了本文重点挖掘的特征确实可提高推荐效果.
                  2   相关工作

                                                                    [1]
                                                                     , 基于协同过滤的推荐模型能较充分地利用全
                 局信息, 但单一的协同过滤推荐模型很难适应不同的场景. 比如, 为实现个性化推荐而细化用户的不同兴趣, 就要
                 求  CF  可融入时间等方面的因素并关注到局部信息. 因此, 在推荐系统的发展过程中, 很多基于                         CF  的时序预测和
                 用户兴趣预测方法脱颖而出, 主要包括: 时间感知邻域模型                 (time-aware neighborhood model)、基于聚类  (clustering)
                 的方法、基于线性回归        (linear regression) 的方法、基于深度学习  (deep learning) 的方法.
                    时间感知邻域模型       [6] 在协同过滤的基础上, 对时序信息进行建模, 即, 在挖掘用户-项目信息的过程中, 将用户
                 交互过的项目按时间轴顺序展开, 使用户对项目的关注度也随时间分布. 这种方法虽扩展了传统模型对时序信息
                 的挖掘与利用, 但未能弥补传统模型固有的缺陷, 比如, 无法区别长短期兴趣.
                    随着数据挖掘技术的发展, 聚类方法得到广泛研究, 很多学者用其解决推荐问题. 徐晓等人                              [7] 研究一种基
   394   395   396   397   398   399   400   401   402   403   404