Page 259 - 《软件学报》2021年第12期
P. 259
田震 等:深度矩阵分解推荐算法 3923
Table 3 Performance comparison of deep matrix factorization andbaselines
表 3 深度矩阵分解与基准方法性能对比
数据集 MovieLens Anime
对比方法 NDCG@10 HR@10 NDCG@10 HR@10
ItemPop 0.268 6 0.459 6 0.246 2 0.413 6
ItemKNN 0.354 1 0.610 5 0.321 5 0.582 1
BPR 0.402 1 0.680 1 0.395 1 0.635 5
GMF 0.423 4 0.701 2 0.471 2 0.739 7
DMF 0.443 2 0.707 1 0.532 1 0.785 3
通过表 3 不难看出:在两个数据集上,HR@10 和 NDCG@10 指标都是 DMF>>GMF>>BPR>>ItemKNN>>
ItemPop.我们提出的 DMF 模型在两个数据集上的性能表现都优于基准方法模型.
• 相比较于 GMF 模型,其在 Anime 数据集上的 HR@10 和 NDCG@10 指标分别提升了 0.045 6 和 0.060 9;
而在 MovieLens 数据集上,两个指标分别提升了 0.005 9 和 0.019 8;
• 相比较于 ItemPop 方法,DMF 在 MovieLens 数据集上两个指标分别提升了 0.247 5 和 0.174 6;而在
Anime 数据集上,HR@10 和 NDCG@10 指标分别提升了 0.371 7 和 0.285 9.
在这些模型中,ItemPop 表现最差.这可能是由于 ItemPop 是根据物品在所有用户中受欢迎程度来推荐的,
不能满足用户的个性化需求,无法提供个性化推荐.这表明,非个性化的推荐方法不能有效地用来预测用户偏
好.ItemKNN 方法基于用户和物品的历史交互矩阵来计算物品相似度进行物品推荐,虽然能一定程度上满足用
户个性化需求;但是由于交互矩阵的稀疏性问题,导致物品相似度的计算偏差大,所以整体影响了最终模型的推
荐性能,因此推荐性能虽然相对于 ItemPop 方法有了很大提升,但是性能还是低于 BPR,GMF 和 DMF.同时,DMF
和 GMF 推荐性能强于 BPR,这可能是因为 DMF 和 GMF 有着更灵活的正负采样率,对于每个正训练样本采样
更多的合适负样本,更准确建模现实世界用户和物品交互的场景.同时,结果表明:相比较于 BPR 中采用简单线
性内积建模用户和物品之间的交互,采用神经网络赋予模型非线性的学习能力的 DMF 和 GMF 具有更突出的
表达能力.而 DMF 的 HR@10 和 NDCG@10 指标在两个数据集上表现都优于 GMF,这可能是因为添加的隐藏层
将在 GMF 得到的二阶交互映射到更深层次的抽象空间中,从而学习到用户和物品间更高阶交互关系.这表明:
通过添加隐藏层,利用深层神经网络学习高阶抽象特征的特点,使得模型能够建模用户和物品之间的高阶非线
性交互关系,由此模型具有更突出的表达能力.
• Result 2:潜在向量维度影响
为了回答问题 2 潜在向量维度对模型性能的影响,我们比较了潜在向量维度为 10,20,40 和 80 下,ItemKNN,
BPR,GMF 和 DMF 这 4 个模型在 MovieLens 和 Anime 两个数据集上的性能表现,如图 2 和图 3 所示.由于 ItemPop
方法性能相对于其他方法表现差距较大,这里不予以比较.
由图 2 和图 3 首先可以看到:随着潜在维度的不断增加,4 个模型的 HR@10 和 NDCG@10 指标不断提升,
模型的推荐性能不断改善.这是因为在到达最佳潜在向量维度之前,随着维度的增加,潜在向量可以包含更多的
信息量,对于用户和物品特征描述更加全面具体,能够更有效地建模用户和物品的潜在特征,所以模型具有更突
出的表现能力,推荐性能得到显著改善.但是维度并不是越大越好,因为当潜在向量维度过大时,会导致模型过
拟合,这也是为什么当在 MovieLens 数据集上,潜在向量维度达到 40 后,HR@10 和 NDCG@10 指标开始下降;
同样地,在 Anime 数据集上,潜在向量维度达到 40 后,HR@10 和 NDCG@10 指标也开始下降.同时,我们从图 2
和图 3 可以得出结论,DMF 模型在 MovieLens 和 Anime 数据集上最佳潜在向量维度都为 40.其次,可以看到:在
MovieLens 和 Anime 两个数据集中,DMF 模型在不同维度下,HR@10 和 NDCG@10 指标都明显高于其他 3 个
模型.而在图 3 中,甚至在潜在维度为 10,DMF 模型性能最差的时候,其 HR@10 和 NDCG@10 指标仍然高于 BPR
模型,这表明我们提出的 DMF 模型的有效性.