Page 426 - 《软件学报》2025年第9期
P. 426

钱忠胜 等: 利用伪重叠判定机制的多层循环             GCN  跨域推荐                                     4337


                 式     (16) 所示.
                                                                     2
                                                   L = λ 1 L S +λ 2 L T +λ 3 ∥Θ∥                     (16)
                                                                     2
                    注意在公式     (16) 中, 考虑到两域中数据集稀疏性不一致问题, 本文通过调节权重                   λ 1 和  λ 2 平衡源域和目标域
                 的样本, 以控制样本平衡性. 比如, 若目标域的数据更为稀疏, 则可设定较大的                     λ 2 , 以增加目标域数据对总损失的影
                 响. λ 3 则为控制正则化的权重,     Θ 表示网络参数, 两者共同构成正则化项以防止模型过拟合.

                 3   实验设计与分析


                 3.1   问题提出
                    为阐明模型的有效性及其优势, 本文选择经典数据集                  Amazon  的  4  组数据域进行综合实验对比与分析, 主要
                 回答下面   3  个问题.
                    RQ1: 与经典的、较新的相关模型对比, 本文模型有何优势? 效果如何?
                    针对此问题, 第     3.4.1  节设置了对比实验, 分别将本文模型         PO-CDRec 与  12  种相关模型作对比. 实验结果表
                 明, 在  MRR, NDCG, HR  这  3  个评价指标上, 模型  PO-CDRec 均优于其他对比模型. 可知, 所提模型在评估用户对
                 未知项目评分方面有很大优势, 能捕获用户最新偏好并提升推荐性能.
                    RQ2: 本文模型的不同构件对模型自身的性能影响如何?是否有存在的必要性?
                    针对此问题, 在第     3.4.2  节设置了消融实验, 根据伪重叠判定机制、多层循环               GCN  这两个构件组成     3  种变体
                 模型, 分析这些构件对模型推荐性能的影响. 实验结果表明, 这                 3  种变体模型的推荐效果均在不同程度上劣于所提
                 模型  PO-CDRec, 说明这两个构件在解决       CDR  问题上具有一定效果.
                    RQ3: 超参数如何影响本文模型的性能?
                    针对此问题, 在第     3.4.3  节设置了参数敏感度实验, 重点选择传播深度和重叠用户权重展开分析, 发现它们在
                 不同的数据集上使模型达到最优值时的取值有所不同, 并分析了其潜在的原因, 以便更好地优化模型.

                 3.2   数据集与评价指标

                 3.2.1    数据集
                    本文根据多数      CDR  研究选择的跨域数据集和预处理设置来构建              CDR  场景, 在大规模公共亚马逊数据集上进
                 行实验. 该  Amazon (来源  http://jmcauley.ucsd.edu/data/amazon/) 数据集由  24  个不相交的项目域组成. 针对用户部
                 分重叠、项目不重叠的推荐场景, 本文选取部分数据域构成                   4  组源域-目标域, 分别是: Music-Movie、Phone-Elec、
                 Cloth-Sport、Game-Video. 为了将目标域中的项目推荐给只存在源域中的用户               (冷启动用户), 故在数据预处理中,
                 本文过滤掉在域中少于        10  个交互的项目和少于      5  个交互的用户, 使用户-项目能够从其源域中学习具有代表性的
                 嵌入. 同时随机选择约       20%  的重叠用户作为冷启动用户进行测试和验证, 剩余的用户用于训练. 具体信息如表                         2
                 所示, 其中, 训练集这一列中数据表示从数据域中选取用于模型训练的用户-项目交互数.

                                                    表 2 数据集统计信息

                             数据域        用户         项目         训练集        重叠用户        冷启动用户
                             Music      50 841     43 858     674 233                  1 893
                             Movie      87 875     38 643    1 127 424    15 081       1 885
                             Phone      27 519     9 481      148 271                  2 049
                                                                          16 337
                              Elec     107 984     40 460     821 301                  2 042
                             Cloth      41 829     17 943     187 880                   990
                                                                          7 857
                             Sport      27 328     12 655     163 291                   981
                             Game       25 025     12 319     155 036     1 737         226
                             Video      19 457     8 751      156 091                   217

                 3.2.2    评价指标
                    为验证模型     PO-CDRec 的推荐性能是否有所提高, 选取常用的平均倒数秩                (mean reciprocal rank, MRR)、归一
   421   422   423   424   425   426   427   428   429   430   431