Page 200 - 《软件学报》2021年第12期

P. 200

3864 Journal of Software 软件学报 Vol.32, No.12, December 2021

Level2 数据集上,FWD 和 FDIN 算法的运行时间较长,随着迭代轮数的增加,运行时长呈线性增长,FD 算法运行
时长小于以上两种算法.而采用自适应学习率策略的 AFD 算法在相同轮数下耗时最短,同时,在 200 轮以后,运
行时长曲线增长更缓慢.在迭代 400 轮左右,AFD 累计运行时长为 9.8 分钟,FD+CNN 运行时长为 20.6 分钟,AFD
算法较 FD+CNN 算法训练时间缩短 52%左右,说明自适应学习率的方法能够有效的提升训练速度.
• 实验 3:Attention 机制的有效性验证.
本实验将 AFD 中的 Attention 编码策略结合在其他 3 个基准模型中,分别为联邦蒸馏算法结合 CNN 及注
意力机制(FD+CNN+ATN)、联邦学习结合 Wide&Deep 算法和注意力机制(FWD+ATN)和联邦学习结合深度兴
趣网络和注意力机制(FDIN+ATN).将 NDCG、AUC、相同条件下训练时长(迭代次数 400,minibatch 大小 128,
学习率 0.001)和设备端 MAE 作为对比指标,在 Movielens 数据集和 Level2 数据集上对比实验结果见表 6.

Table 6 Comparisons between baselines using attentional mechanism
表 6 各基准模型使用 Attention 机制后的效果对比
数据集算法 NDCG AUC Time (分钟) Global-MAE
FD+CNN+ATN 0.88 (5%) 0.67 (13%) 41 (28%) 0.22 (−8%)
FWD+ATN 0.86 (4%) 0.63 (15%) 64 (25%) 0.26 (−10%)
Movielens
FDIN+ATN 0.88 (2%) 0.73 (−1%) 92 (18%) 0.20 (−5%)
AFD+CNN 0.92 (11%) 0.78 (8%) 13.4 (19%) 0.19 (−20%)
FD+CNN+ATN 0.92 (6%) 0.75 (20%) 23 (12%) 0.18 (6%)
FWD+ATN 0.90 (6%) 0.63 (9%) 35 (29%) 0.19 (−9%)
Level2
FDIN+ATN 0.92 (1%) 0.81 (1%) 46 (24%) 0.15 (−6%)
AFD+CNN 0.96 (6%) 0.87 (7%) 9.8 (56%) 0.14 (−22%)
表 6 中,括号内的数字为加入 Attention 机制后的方法相比未加入之前方法的提升/减少幅度.NDCG 和 AUC
该数字越大越好,运行时间和 MAE 则越小越好.在 Movielens 数据集中,FD+CNN 加入注意力机制后,NDCG@5
值提升约 5%,AUC 值提升约 13%,Global-MAE 误差减少约 8%,相同条件下训练时长却增加了约 28%,说明加入
注意力机制虽然对 FD+CNN 算法精度有明显提升,但增加了计算量.FDIN 加入注意力机制后,Global-MAE 有明
显降低,但 NDCG 指标和 AUC 几乎不变,训练时长增加了约 18%,说明加入注意力机制对 FDIN 算法精度提升
有限.这是由于 FDIN 已经在内部对集成了 Attention 操作.对比实验中除 FDIN 外,其他模型精度均有明显提升,
但会增加算法的计算量,增加训练时间.从同花顺 Level2 数据分析,可以进一步得出相同的结论.
• 实验 4:Attention 编码后特征之间的关联性分析.
本实验对 Attention 编码后特征之间的关联性进行分析,结果见图 7.其中,图 7 的横纵坐标均为 Level2 用户
和产品标签字段,颜色由浅到深表示两个特征的关联度逐级提高,关联度较高的特征能够获得较高的权重得分.

Fig.7 Visualization of feature interactions on Level2 dataset after attentional encoding
图 7 Level2 数据集下进行注意力编码后的特征交互可视化
可以看出,一些特征如 level2_total_buy_time(Level2 产品历史购买次数),total_eventclicknum(Level2 产品历

195 196 197 198 199 200 201 202 203 204 205