Page 191 - 《软件学报》2021年第12期
P. 191

谌明  等:一种基于注意力联邦蒸馏的推荐方法                                                           3855


                                      Table 1    Definitions of main symbols
                                             表 1   主要符号定义
              符号               说明                符号                       说明
                                                          设备 k 中学生网络输出的标签 Logits 集合;去除设备
                       设备编号;标签编号;设备集;
              k,t,K,T,                         k  / k  k  / k  k 的其他设备所有标签 Logits 加和的集合;设备 k 中
                                                     ,
                                                ,
              |K|,|T|,E   标签集;设备数量;标签数量;       SS  ,S S    学生网络输出的所有标签的平均 Logits 集合;去除
                         设备本地模型训练轮数
                                                            设备 k 的其他设备所有标签的平均 Logits 集合
                     设备 k 中学生网络训练数据为标签                          设备 k 的数据实际类别标签,学生
                ,
               k
                 k
                                                k
               t ng    t 的数据数量和该设备数据总量         yp k  , p k teacher  模型预测标签和教师网络预测标签
                                                ,
              l(⋅),L(⋅)   学生网络和教师网络的损失函数          GL                   联合损失函数
                                                               特征 i 的搜索矩阵,查询键值,结果矩阵,
               P(⋅)    查询项与搜索矩阵的相似度             Q,S i,V i,b,a i
                                                                  minibatch 数据量,attention 值
                      时刻 z 目标函数关于模型参数的             2
             R z,m z,V z                         ϕ (R z q−  )    z 时刻之前 q 时刻内的最优梯度
                        梯度,一阶动量和二阶动量
                                                               z 时刻 SGD 阶段初始学习率,修正后的
                                                SGD
                                                     Adam
               ω,δ z   模型参数,时刻 z 的模型梯度          z η  ,,η  z η  z  学习率及 Adam 的阶段学习率
                     设备 k 上的本地数据集,实际标签                             第 k 台设备上用户特征,
               k
                k
                                                  k
                                                    k
              X ,Y ,E                            I ,U ,r
                     和预测标签,全局训练轮数(epoch)                            商品特征和特征总个数

         2.2   方法整体流程
             本文提出的基于注意力和联邦蒸馏的推荐方法(AFD)运行在多个分布式设备中,包括在设备端运行的学生
         网络和运行在服务器端负责收集、整合、分发教师模型参数的联邦中心.协作流程如图 1 所示.












                              Fig.1    Collaboration flow of attentive federated distillation
                                        图 1   注意力联邦蒸馏协作流程
             具体描述如下:
             (1)  每台设备初始化一个基于深度神经网络的推荐(或点击率预测)模型(如卷积神经网络、DeepFM                             [29] 等)
                 作为学生模型,使用设备本地数据进行模型训练.其中,本地设备使用 Attention 机制(见第 2.4 节)对本
                 地用户特征和商品特征进行编码,融合特征交叉信息得到特征 Embedding 表达,并将这些表达作为本
                 地模型的输入进行训练.使用 Attention 机制可捕捉更多兴趣特征,同时,编码本身可减少本地用户数
                 据泄露的风险;
             (2)  本地模型训练收敛后,设备获取模型参数,并将模型参数上传至联邦中心.这里,上传的模型参数与常
                 规联邦学习中的不同:联邦蒸馏方法上传的参数为本地学生模型最后 Softmax 层计算出的 Logits 向量
                 (每个推荐目标标签对应的 Logits 向量,取多轮训练的平均值),而联邦学习方法上传的则是模型权重
   186   187   188   189   190   191   192   193   194   195   196