Page 418 - 《软件学报》2024年第6期
P. 418
2994 软件学报 2024 年第 35 卷第 6 期
4.4.4 模型复杂度分析
所提模型 LG_APIF 先利用相对轻量的传统技术来解析自适应周期、兴趣量因子等深度信息, 再结合轻量级
GCN 技术进行推荐. 与现有模型相比, 推荐步骤相对增多, 尽管模型的效果得到一定程度的提升, 但其复杂度也随
之稍有增加. 下面就时间复杂度方面对相关模型的框架展开性能评估.
1) 就本文模型 LG_APIF 的时间复杂度来说, 主要表现在自适应周期生成、兴趣量因子解析以及 GCN 推荐
3 个模块. 对于自适应周期生成部分, 又分为聚类过程和线性回归过程: 聚类过程的时间复杂度为 O(EnKId), 其中
E 为用户数, n 是平均交互项目量, K 为聚点数, I 是迭代次数, d 为数据维度, 通常 K, I, d 均可认为是常量; 线性回
3
归过程采用逆矩阵的求解方式, 即时间复杂度为 O(K ). 对于兴趣量因子解析部分, 由于行为记忆序列长度和单位
周期数量均是预知的, 故其时间复杂度为 O(1). 对于 GCN 推荐部分, 时间复杂度为 O(MDLd), 其中 M 是交互图节
点数, D 为扩散深度, L 是边数量. 因此, 本文模型的时间复杂度大致为 O(En+MDL).
2) 就对比模型 BPR (该模型相对最早, 效果最差) 的时间复杂度来说, 时间主要消耗在处理反馈信息的排序问
题上. 因此, 时间复杂度大致为 O(DL).
3) 就对比模型 LightGCN (该模型相对较新, 与本文模型结构最为相似) 的时间复杂度来说, 时间主要消耗在
LG_APIF
图传递层的动态扩散过程中. 因此, 时间复杂度大致为 O(MDL).
综上分析, 各模型的时间复杂度大小关系为: 本文模型 LG_APIF > LightGCN > BPR. 尽管从复杂度上来看, 模型
LG_APIF 的效率要劣于对比模型, 但结合实验的推荐效果来说, 其设计思想依然是合理的、有意义的, 主要理由如下.
1) 就本文模型 LG_APIF 的时间复杂度与模型 LightGCN 相比: 由于交互图节点数 M 一般包括用户数 E 和项
目数, 且 n 为平均交互项目数, 故在大部分情况下, En 并不会比 M 大很多, 甚至会更小 (比如, 长尾分布严重时). 此
3
外, 尽管 LG_APIF 模型的线性回归部分时间复杂度为 O(K ), 但 K 一般可取随机常量, 具有可控性, 通常数量级也
不会很大, 对整体模型的时间复杂度影响有限. 因此, 本文模型的时间复杂度并不会比对比模型 LightGCN 高很多,
甚至在大多情况下, 均处于相同数量级的, 但 LG_APIF 模型的推荐效果却要比 LightGCN 好很多. 这足以说明, 本
文模型在时间复杂度上的牺牲是值得的.
2) 就本文模型 LG_APIF 的时间复杂度与模型 BPR 相比: 尽管模型 LG_APIF 的复杂度约为模型 BPR 的
M 倍, 但推荐效果上, 却比模型 BPR 提升约 33% (见表 4, 以 Last.fm 数据集及 Precision 评价指标为例), 且就目前
大多数 GPU/CPU 来说, 本文模型的计算任务并不算大. 因此, 本文模型是可行的、有意义的.
3) 与传统端到端的模型相比, 本文模型 LG_APIF 在组成结构上也具有一定的优势. 由于采用多模块组成形
式, 使得模型 LG_APIF 能利用分布式计算的优势, 即只要计算资源充足, 模型 LG_APIF 的整体推荐性能也会得到
很大的提升. 此外, 虽然本文的推荐框架增加了特征提取模块, 但采用 GCN 技术是经过简化的, 与传统的基于
GCN 的推荐相比, 在高阶传播时, 所消耗的时间实际上相对较少. 因此, 若与达到相当推荐效果的模型相比, 模型
LG_APIF 是较为轻量的.
4.4.5 兴趣量因子自适应优化
模型 LG_APIF 的主要思想是加大对基础信息的挖掘力度, 以提取出与其他对比模型相区别的、高价值的深
度信息. 为进一步验证用户基础信息蕴含的深度信息对推荐性能的影响, 该小节补充了相关优化实验.
由第 3.3 节可知, 周期间隔数 TPN 是模型 在行为记忆重组 (见第 3.3.1 节) 过程中兴趣指数的关键
参数, 影响着兴趣量因子, 进而决定模型的准确性. 但前面的 TPN 均依据数据集的时间区间来手动设置, 这很容易
人为地带来误差. 另外, 经实验 (见第 4.4.1 节) 发现, 不同数据集的 TPN 设置差异很大, 难以保证参数设置的公平
性, 降低了实验可信度. 为解决上述问题, 对模型 LG_APIF 设计了几组针对性的优化实验, 目标是达到 TPN 自动
设置的效果, 实现兴趣量因子的自适应性. 基于此, 对 TPN 的相关定义进行 2 点补充.
① 近期行为比历史行为更重要. 即近期发生的行为往往要比历史中的行为更能影响当前的兴趣. 但前面实验
设置的 TPN, 将近段周期和历史周期的划分单位和方式均一样, 无法表达近期行为的重要性. 因此, TPN 的划分方
式应有所区别, 且随着用户的历史浏览周期慢慢靠近当前时刻, TPN 还应逐渐变小.
② 兴趣指数应呈“蟒蛇状”分布. 蟒蛇头部的粗大应表现在 Sigmoid 函数图像的右端部分, 即浏览的正样例 (有