Page 419 - 《软件学报》2024年第6期
P. 419

钱忠胜 等: 融合自适应周期与兴趣量因子的轻量级               GCN  推荐                                  2995


                 行为的单位周期) 部分, 腹部的肿大表现在            Sigmoid  函数图像的  y 轴两侧部分, 而纤细的尾部则是         Sigmoid  函数图
                 像的左端部分, 即浏览的负样例          (未有行为的单位周期) 部分. 比如, 应认为在一个相对较长的历史周期内, 正样例
                 (或负样例) 间隔为     m  的两个连续出现的较大次数对最终结果的影响区别不大. 这个差距                     m  不能与间隔仍为     m  的
                 两个连续出现的较小次数相对等. 尽管兴趣量演算过程中, 引入双曲正切                       Sigmoid  函数已解决了局部最大      (小) 的
                 问题, 但当连续的正样例       (或负样例) 过大时, 会导致中间少数出现的负样例              (或正样例) 被丢弃, 很难被记录. 另外,
                 若能将两端分布的周期进行恰当的合并, 而将重心放在腹部的行为上, 这能大大减少兴趣量因子解析过程的迭代
                 次数, 提升模型效率, 降低噪声影响, 增强稳定性.
                    因此, 如何合理地设置       TPN  就显得非常重要. 用户的历史周期可看成一段时间轴线段, 设置                  TPN  就是如何将
                 一条长度确定的线段进行切分. 假设该线段长度为                L, 第  i 段的切分长度为    L i  (即  TPN). 由第  3.3.1  节可知, 此时的
                 L i 为定长, 且分为了   L/i 段, 但根据上述对   TPN  的  2  点补充, 这种设置是有缺陷的. 接下来, 我们将设计          3  种新的切
                 分方式, 来实现上述要求, 以期提升模型效率.
                    ● 方式  1. 模型  LG_APIF-L. 针对补充的第①点, 保证长度为       L  的线段从左端点到右端点的切分长度越来越小,
                                               n
                 且设置合理的切分段数. 因此, 我们将          2 ×(n+1)>L (n=1, 2, 3, 4,…) 设为判断式, 递归执行, 直到  n  的取值首次使得
                 判断式成立, 此时, 第    i 段切分长度    L i 的计算方式如公式    (22) 所示:
                                         n−1
                                        2  ,  1 ⩽ i ⩽ D
                                      
                                      
                                      
                                      
                                                   (    )
                                         n−2        2
                                        2  ,  D < i ⩽ 2 −1 D
                                      
                                      
                                      
                                   L i =  .  .                     其中, D = L/(2 n−1 (n+1))          (22)
                                        .    .
                                        .    .
                                      
                                      
                                      
                                      
                                      
                                      
                                             (     )
                                         n−n   n−1         n
                                         2  ,  2  −1 D < i ⩽ (2 −1)D
                    ● 方式  2. 模型  LG_APIF-Y. 针对补充的第②点, 为避免正样例         (或负样例) 出现的频数过大, 则需预先设定最
                           +                −
                 大正样例数    E   (或最大负样例数     E  ), 且应与浏览总周长相关联. 因此, 我们定义了映射函数, 当兴趣指数超出最
                                            +    −
                 大值时, 则通过该函数将其映射回          E  (或  E  ) 内, 此时兴趣指数的计算如公式      (23) 所示:
                                                          +
                                                         E − E  −
                                                     −
                                                 Y = E +        ×(X − X min )                        (23)
                                                        X max − X min 0.25
                                              +
                                                                           +
                                                   −
                 其中, Y  表示当前兴趣指数      X  在超出  E  或  E  范围时, 被映射回区间   [   E  ,   E  ] 的值.
                                                                       −
                    ● 方式  3. 模型  LG_APIF-E. 同时针对补充的第①点和第②点, 从左端到右端切分总长度为                   L  的线段时, 不仅
                                                +             E  也要阶梯式地变小. 因此, 我们在方式
                                                               −
                 切分长度要越来越小, 且最大正样例数            E  和最大负样例数                                     1  和方式  2 的
                          +    −
                 基础上, 将   E  和  E  的计算方式定义为如公式      (24) 所示:
                                            +
                                           E = L/(2 n−1  ×(n+1));  E = −L/(2 n−1  ×(n+1))            (24)
                                                              −
                    图  10  展示了本文模型在分别考虑        3  种优化方式下的柱状图结果对比情况. 为说明上述优化方式的有效性, 这
                 里选取了优化前本文模型         LG_APIF  表现较好的两种数据集        (Last.fm  和  Douban), 对比模型只选取了其中表现最
                 优的模型   (见表  4), 以及优化后的模型     (LG_APIF-L, LG_APIF-Y, LG_APIF-E), 来比较它们在  3  种评价指标下的实
                 验效果. 其中, 横坐标选取不同评价指标, 纵坐标为评价指标值.

                         0.30                                   0.30
                         0.25
                         0.20                                   0.20
                        指标值  0.15                              指标值  0.15
                                                                0.10
                         0.10
                         0.05                                   0.05
                           0                                      0
                              Precision   Recall    NDCG              Precision  Recall    NDCG
                         SEPT  LG_APIF  LG_APIF-L  X_APIF-Y  LG_APIF-E   FAWMF  LG_APIF  LG_APIF-L
                                                                         X_APIF-Y  LG_APIF-E
                                       (a) Last.fm                            (b) Douban
                                        图 10 模型   LG_APIF  在  3  种优化方式下的效果对比
   414   415   416   417   418   419   420   421   422   423   424