Page 28 - 《软件学报》2020年第10期
P. 28
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(10):3004–3018 [doi: 10.13328/j.cnki.jos.006064] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
∗
面向移动终端智能的自治学习系统
1,2
1,2
1,2
1,2
3
徐梦炜 , 刘渊强 , 黄 康 , 刘譞哲 , 黄 罡
1
(北京大学 信息科学技术学院 软件研究所,北京 100871)
2
(高可信软件技术教育部重点实验室(北京大学),北京 100871)
3 (领规科技 北京有限公司,北京 100094 )
通讯作者: 刘譞哲, E-mail: xzl@pku.edu.cn
摘 要: 在移动终端设备中部署机器学习模型已成为学术界和产业界的研究热点,其中重要的一环是利用用户数
据训练生成模型.然而,由于数据隐私日益得到重视,特别是随着欧洲出台 GDPR、我国出台《个人信息保护法》等
相关法律法规,导致开发者不能任意从用户设备中获取训练数据(特别是隐私数据),从而无法保证模型训练的质量.
国内外学者针对如何在隐私数据上训练神经网络模型展开了一系列研究,对其进行了总结并指出其相应的局限性.
为此,提出了一种新型的面向移动终端隐私数据的机器学习模型训练模式,将所有与用户隐私数据相关的计算任务
都部署在本地终端设备,无需用户以任何形式上传数据,从而保护用户隐私.这种训练模式被为自治式学习
(autonomous learning).为了解决自治式学习面临的移动终端数据量不足与计算能力不足两大挑战,设计实现了自治
学习系统 AutLearn,通过云(公共数据,预训练)和端(隐私数据,迁移学习)协同的思想,以及终端数据增强技术,提高了
终端设备上模型的训练效果.进一步地,通过模型压缩、神经网络编译器优化、运行时缓存等一系列技术,AutLearn
可以极大地优化移动终端上的模型训练计算开销.基于 AutLearn 在两个经典的神经网络应用场景下实现了自治式
学习,实验结果表明,AutLearn 可以在保护隐私数据的前提下,训练模型达到甚至超过传统的集中式/联邦式模式,并
且极大地减小了在移动终端上进行模型训练的计算和能耗开销.
关键词: 机器学习;移动计算;边缘计算;分布式系统
中图法分类号: TP311
中文引用格式: 徐梦炜,刘渊强,黄康,刘譞哲,黄罡.面向移动终端智能的自治学习系统.软件学报,2020,31(10):3004–3018.
http://www.jos.org.cn/1000-9825/6064.htm
英文引用格式: Xu MW, Liu YQ, Huang K, Liu XZ, Huang G. Autonomous learning system towards mobile intelligence. Ruan Jian
Xue Bao/Journal of Software, 2020,31(10):3004–3018 (in Chinese). http://www.jos.org.cn/1000-9825/6064.htm
Autonomous Learning System Towards Mobile Intelligence
1,2
3
1,2
1,2
XU Meng-Wei , LIU Yuan-Qiang , HUANG Kang , LIU Xuan-Zhe , HUANG Gang 1,2
1
(Institute of Software, School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China)
2
(Key Laboratory of High Confidence Software Technologies of Ministry of Education (Peking University), Beijing 100871, China)
3
(Linggui Tech, Beijing 100094, China)
Abstract: How to efficiently deploy machine learning models on mobile devices has drawn a lot of attention in both academia and
industry, among which the model training is a critical part. However, with increasingly public attention on data privacy and the recently
adopted laws and regulations, it becomes harder for developers to collect training data from users and thus cannot train high-quality
∗ 基金项目: 国家杰出青年科学基金(61725201); 广东省重点领域研发计划(2020B010164002)
Foundation item: Science Fund for Distinguished Young Scholars of China (61725201); R&D Projects in Key Areas of Guangdong
Province of China (2020B010164002)
本文由“系统软件前沿进展”专题特约编辑武延军研究员、陈海波教授、包云岗研究员、李玲研究员推荐.
收稿时间: 2020-02-07; 修改时间: 2020-04-04; 采用时间: 2020-05-09; jos 在线出版时间: 2020-06-10