Page 419 - 《软件学报》2024年第6期
P. 419
钱忠胜 等: 融合自适应周期与兴趣量因子的轻量级 GCN 推荐 2995
行为的单位周期) 部分, 腹部的肿大表现在 Sigmoid 函数图像的 y 轴两侧部分, 而纤细的尾部则是 Sigmoid 函数图
像的左端部分, 即浏览的负样例 (未有行为的单位周期) 部分. 比如, 应认为在一个相对较长的历史周期内, 正样例
(或负样例) 间隔为 m 的两个连续出现的较大次数对最终结果的影响区别不大. 这个差距 m 不能与间隔仍为 m 的
两个连续出现的较小次数相对等. 尽管兴趣量演算过程中, 引入双曲正切 Sigmoid 函数已解决了局部最大 (小) 的
问题, 但当连续的正样例 (或负样例) 过大时, 会导致中间少数出现的负样例 (或正样例) 被丢弃, 很难被记录. 另外,
若能将两端分布的周期进行恰当的合并, 而将重心放在腹部的行为上, 这能大大减少兴趣量因子解析过程的迭代
次数, 提升模型效率, 降低噪声影响, 增强稳定性.
因此, 如何合理地设置 TPN 就显得非常重要. 用户的历史周期可看成一段时间轴线段, 设置 TPN 就是如何将
一条长度确定的线段进行切分. 假设该线段长度为 L, 第 i 段的切分长度为 L i (即 TPN). 由第 3.3.1 节可知, 此时的
L i 为定长, 且分为了 L/i 段, 但根据上述对 TPN 的 2 点补充, 这种设置是有缺陷的. 接下来, 我们将设计 3 种新的切
分方式, 来实现上述要求, 以期提升模型效率.
● 方式 1. 模型 LG_APIF-L. 针对补充的第①点, 保证长度为 L 的线段从左端点到右端点的切分长度越来越小,
n
且设置合理的切分段数. 因此, 我们将 2 ×(n+1)>L (n=1, 2, 3, 4,…) 设为判断式, 递归执行, 直到 n 的取值首次使得
判断式成立, 此时, 第 i 段切分长度 L i 的计算方式如公式 (22) 所示:
n−1
2 , 1 ⩽ i ⩽ D
( )
n−2 2
2 , D < i ⩽ 2 −1 D
L i = . . 其中, D = L/(2 n−1 (n+1)) (22)
. .
. .
( )
n−n n−1 n
2 , 2 −1 D < i ⩽ (2 −1)D
● 方式 2. 模型 LG_APIF-Y. 针对补充的第②点, 为避免正样例 (或负样例) 出现的频数过大, 则需预先设定最
+ −
大正样例数 E (或最大负样例数 E ), 且应与浏览总周长相关联. 因此, 我们定义了映射函数, 当兴趣指数超出最
+ −
大值时, 则通过该函数将其映射回 E (或 E ) 内, 此时兴趣指数的计算如公式 (23) 所示:
+
E − E −
−
Y = E + ×(X − X min ) (23)
X max − X min 0.25
+
+
−
其中, Y 表示当前兴趣指数 X 在超出 E 或 E 范围时, 被映射回区间 [ E , E ] 的值.
−
● 方式 3. 模型 LG_APIF-E. 同时针对补充的第①点和第②点, 从左端到右端切分总长度为 L 的线段时, 不仅
+ E 也要阶梯式地变小. 因此, 我们在方式
−
切分长度要越来越小, 且最大正样例数 E 和最大负样例数 1 和方式 2 的
+ −
基础上, 将 E 和 E 的计算方式定义为如公式 (24) 所示:
+
E = L/(2 n−1 ×(n+1)); E = −L/(2 n−1 ×(n+1)) (24)
−
图 10 展示了本文模型在分别考虑 3 种优化方式下的柱状图结果对比情况. 为说明上述优化方式的有效性, 这
里选取了优化前本文模型 LG_APIF 表现较好的两种数据集 (Last.fm 和 Douban), 对比模型只选取了其中表现最
优的模型 (见表 4), 以及优化后的模型 (LG_APIF-L, LG_APIF-Y, LG_APIF-E), 来比较它们在 3 种评价指标下的实
验效果. 其中, 横坐标选取不同评价指标, 纵坐标为评价指标值.
0.30 0.30
0.25
0.20 0.20
指标值 0.15 指标值 0.15
0.10
0.10
0.05 0.05
0 0
Precision Recall NDCG Precision Recall NDCG
SEPT LG_APIF LG_APIF-L X_APIF-Y LG_APIF-E FAWMF LG_APIF LG_APIF-L
X_APIF-Y LG_APIF-E
(a) Last.fm (b) Douban
图 10 模型 LG_APIF 在 3 种优化方式下的效果对比