Page 200 - 《软件学报》2021年第12期
P. 200

3864                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         Level2 数据集上,FWD 和 FDIN 算法的运行时间较长,随着迭代轮数的增加,运行时长呈线性增长,FD 算法运行
         时长小于以上两种算法.而采用自适应学习率策略的 AFD 算法在相同轮数下耗时最短,同时,在 200 轮以后,运
         行时长曲线增长更缓慢.在迭代 400 轮左右,AFD 累计运行时长为 9.8 分钟,FD+CNN 运行时长为 20.6 分钟,AFD
         算法较 FD+CNN 算法训练时间缩短 52%左右,说明自适应学习率的方法能够有效的提升训练速度.
             •   实验 3:Attention 机制的有效性验证.
             本实验将 AFD 中的 Attention 编码策略结合在其他 3 个基准模型中,分别为联邦蒸馏算法结合 CNN 及注
         意力机制(FD+CNN+ATN)、联邦学习结合 Wide&Deep 算法和注意力机制(FWD+ATN)和联邦学习结合深度兴
         趣网络和注意力机制(FDIN+ATN).将 NDCG、AUC、相同条件下训练时长(迭代次数 400,minibatch 大小 128,
         学习率 0.001)和设备端 MAE 作为对比指标,在 Movielens 数据集和 Level2 数据集上对比实验结果见表 6.

                          Table 6    Comparisons between baselines using attentional mechanism
                                表 6   各基准模型使用 Attention 机制后的效果对比
                         数据集         算法        NDCG     AUC     Time (分钟)  Global-MAE
                                 FD+CNN+ATN   0.88 (5%)  0.67 (13%)  41 (28%)   0.22 (−8%)
                                  FWD+ATN     0.86 (4%)  0.63 (15%)  64 (25%)   0.26 (−10%)
                        Movielens
                                  FDIN+ATN    0.88 (2%)  0.73 (−1%)  92 (18%)   0.20 (−5%)
                                   AFD+CNN   0.92 (11%)  0.78 (8%)  13.4 (19%)  0.19 (−20%)
                                 FD+CNN+ATN   0.92 (6%)  0.75 (20%)  23 (12%)   0.18 (6%)
                                  FWD+ATN     0.90 (6%)  0.63 (9%)  35 (29%)   0.19 (−9%)
                          Level2
                                  FDIN+ATN    0.92 (1%)  0.81 (1%)  46 (24%)   0.15 (−6%)
                                   AFD+CNN    0.96 (6%)  0.87 (7%)  9.8 (56%)   0.14 (−22%)
             表 6 中,括号内的数字为加入 Attention 机制后的方法相比未加入之前方法的提升/减少幅度.NDCG 和 AUC
         该数字越大越好,运行时间和 MAE 则越小越好.在 Movielens 数据集中,FD+CNN 加入注意力机制后,NDCG@5
         值提升约 5%,AUC 值提升约 13%,Global-MAE 误差减少约 8%,相同条件下训练时长却增加了约 28%,说明加入
         注意力机制虽然对 FD+CNN 算法精度有明显提升,但增加了计算量.FDIN 加入注意力机制后,Global-MAE 有明
         显降低,但 NDCG 指标和 AUC 几乎不变,训练时长增加了约 18%,说明加入注意力机制对 FDIN 算法精度提升
         有限.这是由于 FDIN 已经在内部对集成了 Attention 操作.对比实验中除 FDIN 外,其他模型精度均有明显提升,
         但会增加算法的计算量,增加训练时间.从同花顺 Level2 数据分析,可以进一步得出相同的结论.
             •   实验 4:Attention 编码后特征之间的关联性分析.
             本实验对 Attention 编码后特征之间的关联性进行分析,结果见图 7.其中,图 7 的横纵坐标均为 Level2 用户
         和产品标签字段,颜色由浅到深表示两个特征的关联度逐级提高,关联度较高的特征能够获得较高的权重得分.




















                    Fig.7    Visualization of feature interactions on Level2 dataset after attentional encoding
                             图 7  Level2  数据集下进行注意力编码后的特征交互可视化
             可以看出,一些特征如 level2_total_buy_time(Level2 产品历史购买次数),total_eventclicknum(Level2 产品历
   195   196   197   198   199   200   201   202   203   204   205