Page 426 - 《软件学报》2025年第9期

P. 426

钱忠胜等: 利用伪重叠判定机制的多层循环 GCN 跨域推荐 4337

式 (16) 所示.
2
L = λ 1 L S +λ 2 L T +λ 3 ∥Θ∥ (16)
2
注意在公式 (16) 中, 考虑到两域中数据集稀疏性不一致问题, 本文通过调节权重 λ 1 和 λ 2 平衡源域和目标域
的样本, 以控制样本平衡性. 比如, 若目标域的数据更为稀疏, 则可设定较大的 λ 2 , 以增加目标域数据对总损失的影
响. λ 3 则为控制正则化的权重, Θ 表示网络参数, 两者共同构成正则化项以防止模型过拟合.

3 实验设计与分析

3.1 问题提出
为阐明模型的有效性及其优势, 本文选择经典数据集 Amazon 的 4 组数据域进行综合实验对比与分析, 主要
回答下面 3 个问题.
RQ1: 与经典的、较新的相关模型对比, 本文模型有何优势? 效果如何?
针对此问题, 第 3.4.1 节设置了对比实验, 分别将本文模型 PO-CDRec 与 12 种相关模型作对比. 实验结果表
明, 在 MRR, NDCG, HR 这 3 个评价指标上, 模型 PO-CDRec 均优于其他对比模型. 可知, 所提模型在评估用户对
未知项目评分方面有很大优势, 能捕获用户最新偏好并提升推荐性能.
RQ2: 本文模型的不同构件对模型自身的性能影响如何?是否有存在的必要性?
针对此问题, 在第 3.4.2 节设置了消融实验, 根据伪重叠判定机制、多层循环 GCN 这两个构件组成 3 种变体
模型, 分析这些构件对模型推荐性能的影响. 实验结果表明, 这 3 种变体模型的推荐效果均在不同程度上劣于所提
模型 PO-CDRec, 说明这两个构件在解决 CDR 问题上具有一定效果.
RQ3: 超参数如何影响本文模型的性能?
针对此问题, 在第 3.4.3 节设置了参数敏感度实验, 重点选择传播深度和重叠用户权重展开分析, 发现它们在
不同的数据集上使模型达到最优值时的取值有所不同, 并分析了其潜在的原因, 以便更好地优化模型.

3.2 数据集与评价指标

3.2.1 数据集
本文根据多数 CDR 研究选择的跨域数据集和预处理设置来构建 CDR 场景, 在大规模公共亚马逊数据集上进
行实验. 该 Amazon (来源 http://jmcauley.ucsd.edu/data/amazon/) 数据集由 24 个不相交的项目域组成. 针对用户部
分重叠、项目不重叠的推荐场景, 本文选取部分数据域构成 4 组源域-目标域, 分别是: Music-Movie、Phone-Elec、
Cloth-Sport、Game-Video. 为了将目标域中的项目推荐给只存在源域中的用户 (冷启动用户), 故在数据预处理中,
本文过滤掉在域中少于 10 个交互的项目和少于 5 个交互的用户, 使用户-项目能够从其源域中学习具有代表性的
嵌入. 同时随机选择约 20% 的重叠用户作为冷启动用户进行测试和验证, 剩余的用户用于训练. 具体信息如表 2
所示, 其中, 训练集这一列中数据表示从数据域中选取用于模型训练的用户-项目交互数.

表 2 数据集统计信息

数据域用户项目训练集重叠用户冷启动用户
Music 50 841 43 858 674 233 1 893
Movie 87 875 38 643 1 127 424 15 081 1 885
Phone 27 519 9 481 148 271 2 049
16 337
Elec 107 984 40 460 821 301 2 042
Cloth 41 829 17 943 187 880 990
7 857
Sport 27 328 12 655 163 291 981
Game 25 025 12 319 155 036 1 737 226
Video 19 457 8 751 156 091 217

3.2.2 评价指标
为验证模型 PO-CDRec 的推荐性能是否有所提高, 选取常用的平均倒数秩 (mean reciprocal rank, MRR)、归一

421 422 423 424 425 426 427 428 429 430 431