Page 418 - 《软件学报》2024年第6期
P. 418

2994                                                       软件学报  2024  年第  35  卷第  6  期


                  4.4.4    模型复杂度分析
                    所提模型    LG_APIF  先利用相对轻量的传统技术来解析自适应周期、兴趣量因子等深度信息, 再结合轻量级
                 GCN  技术进行推荐. 与现有模型相比, 推荐步骤相对增多, 尽管模型的效果得到一定程度的提升, 但其复杂度也随
                 之稍有增加. 下面就时间复杂度方面对相关模型的框架展开性能评估.
                    1) 就本文模型    LG_APIF  的时间复杂度来说, 主要表现在自适应周期生成、兴趣量因子解析以及                       GCN  推荐
                 3  个模块. 对于自适应周期生成部分, 又分为聚类过程和线性回归过程: 聚类过程的时间复杂度为                           O(EnKId), 其中
                 E  为用户数, n  是平均交互项目量, K     为聚点数, I 是迭代次数, d     为数据维度, 通常     K, I, d  均可认为是常量; 线性回
                                                          3
                 归过程采用逆矩阵的求解方式, 即时间复杂度为               O(K ). 对于兴趣量因子解析部分, 由于行为记忆序列长度和单位
                 周期数量均是预知的, 故其时间复杂度为             O(1). 对于  GCN  推荐部分, 时间复杂度为     O(MDLd), 其中  M 是交互图节
                 点数, D  为扩散深度, L  是边数量. 因此, 本文模型的时间复杂度大致为              O(En+MDL).
                    2) 就对比模型    BPR (该模型相对最早, 效果最差) 的时间复杂度来说, 时间主要消耗在处理反馈信息的排序问
                 题上. 因此, 时间复杂度大致为        O(DL).
                    3) 就对比模型    LightGCN (该模型相对较新, 与本文模型结构最为相似) 的时间复杂度来说, 时间主要消耗在
                                                     LG_APIF
                 图传递层的动态扩散过程中. 因此, 时间复杂度大致为                O(MDL).
                    综上分析, 各模型的时间复杂度大小关系为: 本文模型               LG_APIF > LightGCN > BPR. 尽管从复杂度上来看, 模型
                 LG_APIF  的效率要劣于对比模型, 但结合实验的推荐效果来说, 其设计思想依然是合理的、有意义的, 主要理由如下.
                    1) 就本文模型    LG_APIF  的时间复杂度与模型      LightGCN  相比: 由于交互图节点数      M  一般包括用户数     E  和项
                 目数, 且  n  为平均交互项目数, 故在大部分情况下, En         并不会比    M  大很多, 甚至会更小    (比如, 长尾分布严重时). 此
                                                              3
                 外, 尽管  LG_APIF  模型的线性回归部分时间复杂度为           O(K ), 但  K  一般可取随机常量, 具有可控性, 通常数量级也
                 不会很大, 对整体模型的时间复杂度影响有限. 因此, 本文模型的时间复杂度并不会比对比模型                            LightGCN  高很多,
                 甚至在大多情况下, 均处于相同数量级的, 但             LG_APIF  模型的推荐效果却要比       LightGCN  好很多. 这足以说明, 本
                 文模型在时间复杂度上的牺牲是值得的.
                    2) 就本文模型    LG_APIF  的时间复杂度与模型        BPR  相比: 尽管模型    LG_APIF  的复杂度约为模型      BPR  的
                 M  倍, 但推荐效果上, 却比模型      BPR  提升约  33% (见表  4, 以  Last.fm  数据集及  Precision  评价指标为例), 且就目前
                 大多数   GPU/CPU  来说, 本文模型的计算任务并不算大. 因此, 本文模型是可行的、有意义的.
                    3) 与传统端到端的模型相比, 本文模型           LG_APIF  在组成结构上也具有一定的优势. 由于采用多模块组成形
                 式, 使得模型   LG_APIF  能利用分布式计算的优势, 即只要计算资源充足, 模型               LG_APIF  的整体推荐性能也会得到
                 很大的提升. 此外, 虽然本文的推荐框架增加了特征提取模块, 但采用                      GCN  技术是经过简化的, 与传统的基于
                 GCN  的推荐相比, 在高阶传播时, 所消耗的时间实际上相对较少. 因此, 若与达到相当推荐效果的模型相比, 模型
                 LG_APIF  是较为轻量的.
                  4.4.5    兴趣量因子自适应优化
                    模型  LG_APIF  的主要思想是加大对基础信息的挖掘力度, 以提取出与其他对比模型相区别的、高价值的深
                 度信息. 为进一步验证用户基础信息蕴含的深度信息对推荐性能的影响, 该小节补充了相关优化实验.
                    由第  3.3  节可知, 周期间隔数    TPN  是模型          在行为记忆重组      (见第  3.3.1  节) 过程中兴趣指数的关键
                 参数, 影响着兴趣量因子, 进而决定模型的准确性. 但前面的                TPN  均依据数据集的时间区间来手动设置, 这很容易
                 人为地带来误差. 另外, 经实验        (见第  4.4.1  节) 发现, 不同数据集的   TPN  设置差异很大, 难以保证参数设置的公平
                 性, 降低了实验可信度. 为解决上述问题, 对模型             LG_APIF  设计了几组针对性的优化实验, 目标是达到             TPN  自动
                 设置的效果, 实现兴趣量因子的自适应性. 基于此, 对              TPN  的相关定义进行     2  点补充.
                    ① 近期行为比历史行为更重要. 即近期发生的行为往往要比历史中的行为更能影响当前的兴趣. 但前面实验
                 设置的   TPN, 将近段周期和历史周期的划分单位和方式均一样, 无法表达近期行为的重要性. 因此, TPN                         的划分方
                 式应有所区别, 且随着用户的历史浏览周期慢慢靠近当前时刻, TPN                   还应逐渐变小.
                    ② 兴趣指数应呈“蟒蛇状”分布. 蟒蛇头部的粗大应表现在                 Sigmoid  函数图像的右端部分, 即浏览的正样例          (有
   413   414   415   416   417   418   419   420   421   422   423