Page 191 - 《软件学报》2021年第12期
P. 191
谌明 等:一种基于注意力联邦蒸馏的推荐方法 3855
Table 1 Definitions of main symbols
表 1 主要符号定义
符号 说明 符号 说明
设备 k 中学生网络输出的标签 Logits 集合;去除设备
设备编号;标签编号;设备集;
k,t,K,T, k / k k / k k 的其他设备所有标签 Logits 加和的集合;设备 k 中
,
,
|K|,|T|,E 标签集;设备数量;标签数量; SS ,S S 学生网络输出的所有标签的平均 Logits 集合;去除
设备本地模型训练轮数
设备 k 的其他设备所有标签的平均 Logits 集合
设备 k 中学生网络训练数据为标签 设备 k 的数据实际类别标签,学生
,
k
k
k
t ng t 的数据数量和该设备数据总量 yp k , p k teacher 模型预测标签和教师网络预测标签
,
l(⋅),L(⋅) 学生网络和教师网络的损失函数 GL 联合损失函数
特征 i 的搜索矩阵,查询键值,结果矩阵,
P(⋅) 查询项与搜索矩阵的相似度 Q,S i,V i,b,a i
minibatch 数据量,attention 值
时刻 z 目标函数关于模型参数的 2
R z,m z,V z ϕ (R z q− ) z 时刻之前 q 时刻内的最优梯度
梯度,一阶动量和二阶动量
z 时刻 SGD 阶段初始学习率,修正后的
SGD
Adam
ω,δ z 模型参数,时刻 z 的模型梯度 z η ,,η z η z 学习率及 Adam 的阶段学习率
设备 k 上的本地数据集,实际标签 第 k 台设备上用户特征,
k
k
k
k
X ,Y ,E I ,U ,r
和预测标签,全局训练轮数(epoch) 商品特征和特征总个数
2.2 方法整体流程
本文提出的基于注意力和联邦蒸馏的推荐方法(AFD)运行在多个分布式设备中,包括在设备端运行的学生
网络和运行在服务器端负责收集、整合、分发教师模型参数的联邦中心.协作流程如图 1 所示.
Fig.1 Collaboration flow of attentive federated distillation
图 1 注意力联邦蒸馏协作流程
具体描述如下:
(1) 每台设备初始化一个基于深度神经网络的推荐(或点击率预测)模型(如卷积神经网络、DeepFM [29] 等)
作为学生模型,使用设备本地数据进行模型训练.其中,本地设备使用 Attention 机制(见第 2.4 节)对本
地用户特征和商品特征进行编码,融合特征交叉信息得到特征 Embedding 表达,并将这些表达作为本
地模型的输入进行训练.使用 Attention 机制可捕捉更多兴趣特征,同时,编码本身可减少本地用户数
据泄露的风险;
(2) 本地模型训练收敛后,设备获取模型参数,并将模型参数上传至联邦中心.这里,上传的模型参数与常
规联邦学习中的不同:联邦蒸馏方法上传的参数为本地学生模型最后 Softmax 层计算出的 Logits 向量
(每个推荐目标标签对应的 Logits 向量,取多轮训练的平均值),而联邦学习方法上传的则是模型权重