Page 417 - 《软件学报》2025年第9期
P. 417
4328 软件学报 2025 年第 36 卷第 9 期
recurrent GCN CDR model based on a pseudo-overlap detection mechanism is proposed. Firstly, by fully leveraging overlapping data
based on the community clustering algorithm Louvain, a pseudo-overlap detection mechanism is designed to mine user trust relationships
and similar user communities, thereby enhancing the adaptability and accuracy of clustering algorithms in CDR. Secondly, a multi-layer
recurrent GCN consisting of an embedding learning module and a graph learning module is proposed to learn dynamic domain-shared
features, domain-specific features, and dynamic graph structures. By conducting iterative enhancement of the two modules, the latest user
preferences are obtained to alleviate data sparsity. Finally, a multi-layer perceptron (MLP) is employed to model user-item interactions and
obtain predicted ratings. Comparative results with 12 related models across four groups of data domains demonstrate the effectiveness of
the proposed method, with average improvements of 5.47%, 3.44%, and 2.38% in MRR, NDCG, and HR metrics respectively.
Key words: cross-domain recommendation; pseudo-overlap detection mechanism; graph convolution network (GCN); community clustering;
recommender system
推荐系统 (recommender system, RS) 的基本思想是从大量的候选项目中选择用户可能感兴趣的项目并推荐给
用户. 然而, 在大多数实际应用场景中存在数据稀疏问题, 这使得推荐系统无法为用户生成最恰当表示, 同时新用
户/项目也引起冷启动现象. 为缓解数据稀疏以及冷启动问题, 一些基于协同过滤 (collaborative filtering, CF) 的推
荐方法开始引入迁移学习技术 [1] , 从数据较密集的领域中提取共享知识, 用于改进目标领域的推荐性能, 称为跨域
推荐 (cross-domain recommendation, CDR) 方法.
CDR 方法通过引入辅助域可有效缓解推荐中冷启动问题 [2−5] , 学习不同域之间的重叠用户/项目的潜在表征,
同时结合域间共享信息作为连接辅助域和目标域的桥梁. 一些模型只考虑对单个用户的表示进行建模, 使用不同
方法 (如循环生成网络、元网络) 学习个性化的双向传递函数. 然而, 这些方法未能从用户群体出发, 且未兼顾到
跨域信息的差异性, 其适用范围不广. 人类行为易受其他个体的影响, 特别是朋友和具有相似偏好的用户. 根据协
同过滤思想 [6] , 可从相似用户中提取共同特征并应用于改进和学习个性化建模表示. 但随着 CDR 数据量的增加,
数据的稀疏性和高维性现象不断显现, 模型通过将相似用户/项目进行聚类, 帮助发现相似兴趣的用户/项目群组,
可有效缓解该问题. 在推荐系统中虽然协同过滤在聚类算法中运用最为广泛 [7] , 但在跨域推荐领域, 协同过滤无法
高效处理不同领域之间的复杂关系. 同时, 基于聚类的 CDR 模型往往面向用户完全重叠场景而很少针对部分用户
重叠的推荐场景进行改进, 使得聚类效率低下, 处理速度受到影响. 以源域和目标域分别为电影和书籍为例, 假设
用户 u 1 , u 2 , u 3 均在电影领域与多处相同项目交互而在书籍领域的交互信息较少, 可看作 u 1 , u 2 , u 3 具有相似的电影
偏好, 那么 u 2 在书籍领域的交互信息对于 u 1 , u 3 也具有一定的参考价值. 而在用户部分重叠场景下, 比如, 用户 u 1
在书籍领域无交互信息, 而 u 3 在电影领域无交互信息, 则他们的重叠用户 u 2 就成为连接 u 1 , u 3 的桥梁. 这种情况
下无法直接套用常规基于单域推荐的方法进行聚类, 有必要对聚类方法进行改进以利用重叠用户信息, 为后续特
征学习提供更准确的聚类结果.
因此, 设计能针对部分用户重叠推荐场景的聚类方法对提高跨域推荐的适应能力及其准确性至关重要.
在跨域推荐中, 一些传统非图的 CDR 方法难以捕捉复杂的用户-项目交互, 只能通过一跳邻居交互信息学习
[8]
用户表征. 为获取高阶信息, 人们利用图神经网络 (graph neural network, GNN) 的信息提取能力, 不仅可运用一跳
邻居信息, 还可使用通过图结构间接连接的多跳邻居信息, 获得更高质量嵌入特征的高阶关系. 然而, 现有大多数
GNN 方法主要关注节点特征信息的利用, 而在跨域场景中, 节点却可能缺乏明显的特征. 为提高跨域节点嵌入的
准确性, 研究人员开始探索在不使用节点特征信息的情况下, 如何更有效地学习跨域节点嵌入 [9] . 考虑到不同域及
不同项目对用户在目标域兴趣偏好具有不同的影响, 一些基于图卷积网络方法 (graph convolution network, GCN)
的 CDR 模型主要通过学习域共享信息和域特有信息来获取高阶的跨域节点嵌入 [10] . 在使用 GCN 前, 需要通过图
的形式构建用户-项目节点关系作为 GCN 的初始输入, 但事实上, 随着节点嵌入的学习, 固定的图构建过程会忽略
不同域间节点关系的变化.
因此, 在基于 GCN 的 CDR 模型中增加循环结构并使图随着节点嵌入的学习而变化, 可提高节点特征的鲁棒
性和数据的利用率, 从而缓解数据稀疏问题.
基于上述两个方面的问题, 本文提出一种利用伪重叠判定机制的多层循环 GCN 跨域推荐模型 PO-CDRec, 主
要工作与贡献如下.

