Page 417 - 《软件学报》2025年第9期
P. 417

4328                                                       软件学报  2025  年第  36  卷第  9  期


                 recurrent  GCN  CDR  model  based  on  a  pseudo-overlap  detection  mechanism  is  proposed.  Firstly,  by  fully  leveraging  overlapping  data
                 based  on  the  community  clustering  algorithm  Louvain,  a  pseudo-overlap  detection  mechanism  is  designed  to  mine  user  trust  relationships
                 and  similar  user  communities,  thereby  enhancing  the  adaptability  and  accuracy  of  clustering  algorithms  in  CDR.  Secondly,  a  multi-layer
                 recurrent  GCN  consisting  of  an  embedding  learning  module  and  a  graph  learning  module  is  proposed  to  learn  dynamic  domain-shared
                 features,  domain-specific  features,  and  dynamic  graph  structures.  By  conducting  iterative  enhancement  of  the  two  modules,  the  latest  user
                 preferences  are  obtained  to  alleviate  data  sparsity.  Finally,  a  multi-layer  perceptron  (MLP)  is  employed  to  model  user-item  interactions  and
                 obtain  predicted  ratings.  Comparative  results  with  12  related  models  across  four  groups  of  data  domains  demonstrate  the  effectiveness  of
                 the proposed method, with average improvements of 5.47%, 3.44%, and 2.38% in MRR, NDCG, and HR metrics respectively.
                 Key words:  cross-domain recommendation; pseudo-overlap detection mechanism; graph convolution network (GCN); community clustering;
                         recommender system
                    推荐系统    (recommender system, RS) 的基本思想是从大量的候选项目中选择用户可能感兴趣的项目并推荐给
                 用户. 然而, 在大多数实际应用场景中存在数据稀疏问题, 这使得推荐系统无法为用户生成最恰当表示, 同时新用
                 户/项目也引起冷启动现象. 为缓解数据稀疏以及冷启动问题, 一些基于协同过滤                         (collaborative filtering, CF) 的推
                 荐方法开始引入迁移学习技术          [1] , 从数据较密集的领域中提取共享知识, 用于改进目标领域的推荐性能, 称为跨域
                 推荐  (cross-domain recommendation, CDR) 方法.
                    CDR  方法通过引入辅助域可有效缓解推荐中冷启动问题                  [2−5] , 学习不同域之间的重叠用户/项目的潜在表征,
                 同时结合域间共享信息作为连接辅助域和目标域的桥梁. 一些模型只考虑对单个用户的表示进行建模, 使用不同
                 方法  (如循环生成网络、元网络) 学习个性化的双向传递函数. 然而, 这些方法未能从用户群体出发, 且未兼顾到
                 跨域信息的差异性, 其适用范围不广. 人类行为易受其他个体的影响, 特别是朋友和具有相似偏好的用户. 根据协
                 同过滤思想    [6] , 可从相似用户中提取共同特征并应用于改进和学习个性化建模表示. 但随着                       CDR  数据量的增加,
                 数据的稀疏性和高维性现象不断显现, 模型通过将相似用户/项目进行聚类, 帮助发现相似兴趣的用户/项目群组,
                 可有效缓解该问题. 在推荐系统中虽然协同过滤在聚类算法中运用最为广泛                         [7] , 但在跨域推荐领域, 协同过滤无法
                 高效处理不同领域之间的复杂关系. 同时, 基于聚类的                CDR  模型往往面向用户完全重叠场景而很少针对部分用户
                 重叠的推荐场景进行改进, 使得聚类效率低下, 处理速度受到影响. 以源域和目标域分别为电影和书籍为例, 假设
                 用户  u 1 , u 2 , u 3 均在电影领域与多处相同项目交互而在书籍领域的交互信息较少, 可看作               u 1 , u 2 , u 3 具有相似的电影
                 偏好, 那么  u 2 在书籍领域的交互信息对于         u 1 , u 3 也具有一定的参考价值. 而在用户部分重叠场景下, 比如, 用户            u 1
                 在书籍领域无交互信息, 而        u 3 在电影领域无交互信息, 则他们的重叠用户            u 2 就成为连接   u 1 , u 3 的桥梁. 这种情况
                 下无法直接套用常规基于单域推荐的方法进行聚类, 有必要对聚类方法进行改进以利用重叠用户信息, 为后续特
                 征学习提供更准确的聚类结果.
                    因此, 设计能针对部分用户重叠推荐场景的聚类方法对提高跨域推荐的适应能力及其准确性至关重要.
                    在跨域推荐中, 一些传统非图的           CDR  方法难以捕捉复杂的用户-项目交互, 只能通过一跳邻居交互信息学习
                                                                             [8]
                 用户表征. 为获取高阶信息, 人们利用图神经网络              (graph neural network, GNN) 的信息提取能力, 不仅可运用一跳
                 邻居信息, 还可使用通过图结构间接连接的多跳邻居信息, 获得更高质量嵌入特征的高阶关系. 然而, 现有大多数
                 GNN  方法主要关注节点特征信息的利用, 而在跨域场景中, 节点却可能缺乏明显的特征. 为提高跨域节点嵌入的
                 准确性, 研究人员开始探索在不使用节点特征信息的情况下, 如何更有效地学习跨域节点嵌入                             [9] . 考虑到不同域及
                 不同项目对用户在目标域兴趣偏好具有不同的影响, 一些基于图卷积网络方法                          (graph convolution network, GCN)
                 的  CDR  模型主要通过学习域共享信息和域特有信息来获取高阶的跨域节点嵌入                        [10] . 在使用  GCN  前, 需要通过图
                 的形式构建用户-项目节点关系作为            GCN  的初始输入, 但事实上, 随着节点嵌入的学习, 固定的图构建过程会忽略
                 不同域间节点关系的变化.
                    因此, 在基于    GCN  的  CDR  模型中增加循环结构并使图随着节点嵌入的学习而变化, 可提高节点特征的鲁棒
                 性和数据的利用率, 从而缓解数据稀疏问题.
                    基于上述两个方面的问题, 本文提出一种利用伪重叠判定机制的多层循环                         GCN  跨域推荐模型    PO-CDRec, 主
                 要工作与贡献如下.
   412   413   414   415   416   417   418   419   420   421   422