Page 189 - 《软件学报》2021年第12期
P. 189
谌明 等:一种基于注意力联邦蒸馏的推荐方法 3853
attention mechanism to improve model accuracy by adding information to the embeddings. Finally, an improved adaptive training
mechanism is introduced for learning rate to automatically switch optimizers and choose appropriate learning rates, thus increasing
convergence speed of model. Experiment results validate efficiency of the proposed methods: compared to the baselines, the training time
of the proposed model is reduced by 52%, the accuracy is increased by 13%, the average error is reduced by 17%, and the NDCG is
increased by 10%.
Key words: federated learning; distributed learning; federated distillation; recommendation systems; attentive mechanism
近年来,随着电商平台和移动互联网的迅猛发展,人们已经步入信息过载的时代.推荐系统作为连接用户和
信息的桥梁,正变得越来越重要.目前,主流的推荐系统主要基于大数据下的离线和在线推荐 [1,2] ,但该类推荐系
统往往需要收集大量用户个人信息以及浏览、购买等用户行为记录,存在数据隐私泄露的风险.随着《中华人
民共和国网络安全法》、欧盟《通用数据保护条例》等一系列严格的数据隐私保护法律法规出台,对此类数据
[3]
的收集提出更多限制措施.另外,出于政策法规、商业竞争等因素,不同机构间的数据很难互通 .针对以上问题,
联邦学习范式被提出 [4,5] .该范式可使模型在不上传用户隐私数据的前提下进行联合建模,同时与领域和算法无
[6]
关,可实现在不同数据结构、不同机构间协同建模,有效保护用户隐私和数据安全 .
随着 5G(the 5th generation mobile communication technology)技术的普及,用户设备端数据的上传速度和下
载速度将高达 10Gbps 级别,同时,移动设备的响应时间将降至仅 1 毫秒级别,相比 4G(the 4th generation mobile
[7]
communication technology)下载速度快 6.5 万倍 ;用户数据的爆炸式增长对机器学习模型的训练速度提出更高
要求,与此同时,推荐系统随着模型的复杂度越高,联邦学习需要交换的权重系数也越多,给联邦学习下的模型
[8]
移动端通信开销带来了严峻的挑战 .知识蒸馏可用于将参数大的复杂网络(教师模型)中的知识迁移到参数量小
[9]
的简单网络(学生模型)中去,用更少的复杂度来获得更高的预测效果 .针对联邦学习设备间模型参数多和通信
开销大,Jeong 等人 [10] 将知识蒸馏引入联邦学习场景,用于压缩每台设备模型参数的体量并减少通信次数.但除
上述挑战和问题外,推荐系统在数据上仍存在着如下问题.
(1) 用户间行为数据差异较大,通常行为数据体现为长尾分布,使得设备间数据存在高度异质性;
(2) 真实推荐场景下数据大都为非独立同分布(non-IID),但大部分推荐算法往往仍基于独立同分布(IID)
假设 [11] ,该假设忽略了非独立同分布可能造成的数据、模型上的异质性.
在联邦蒸馏的场景下,以上问题会造成不同设备数据之间的差异,进而造成设备模型之间的差异.而知识蒸
馏的引入,会进一步地扩大教师模型与学生模型之间的分布差异,使全局模型收敛速度慢,准确率低.针对以上
问题,还没有针对推荐场景的联邦蒸馏算法及框架被提出.
本文提出基于注意力联邦蒸馏的推荐方法,该方法相比 Jeong 等人 [10] 提出的联邦蒸馏算法做了如下改进.
在联邦蒸馏的联合目标函数中加入 KL 散度(Kullback-Leibler divergence)和正则项,减少因教师网络和学生网
络间的差异对全局模型造成的影响,提升模型稳定性和泛化性能;在联邦蒸馏设备端流程中引入改进的多头注
意力(multi-head attention)机制,使特征编码信息更加丰富,提升整体模型精度;提出一种自适应学习率的训练策
略,利用混合优化的方法优化联邦蒸馏的联合目标函数,提高模型收敛速度,抵消注意力编码增加的计算量.该
方法是目前第一个面向推荐系统场景的联邦蒸馏方法.
1 相关研究
1.1 联邦学习
数据的隐私保护一直是推荐系统的重要研究方向,联邦学习可在不共享隐私数据的情况下进行协同训练,
能够有效地解决数据隐私问题 [12] .国内外一些学者对其进行了研究.Google AI 团队提出了联邦学习方法,该方
法在不收集用户数据的情况下,在每台设备上独立完成模型训练,再将梯度数据进行隐私保护加密传输到中心
节点服务器(联邦中心),最后,中心节点根据汇总结果将更新后的梯度(全局模型)再回传到每台设备上,从而完
成每台设备的梯度和模型更新,解决了用户数据孤岛问题 [13−14] .目前,机器学习的很多领域都已引入联邦学习,