Page 100 - 《软件学报》2025年第12期
P. 100
谷典典 等: 云边协同的深度学习作业调度方法 5481
随着物联网 (IoT) 设备的普及和数据量的爆炸性增长, 越来越多的边缘设备连接到互联网, 产生大量的数据 [1–3] .
传统云计算将数据传输到云端进行处理, 但是由于网络延迟和带宽限制, 这种方式无法满足实时处理和分析的需
求. 因此, 边缘计算应运而生: 其本质是将数据处理和分析从云端转移到网络的边缘, 即靠近数据源的地方, 以此减
少数据传输的延迟和带宽消耗, 提高数据处理的实时性和效率. 同时, 边缘计算还可以降低对云端服务器的依赖,
提高系统的可靠性和安全性. 为了满足这样的需求, 边缘服务器被部署在靠近数据源或用户端的网络边缘, 用来处
理和存储来自物联网设备、移动设备或其他边缘设备的数据.
然而, 在实际部署中, 这些边缘服务器并没有每时每刻都得到充分的利用. 近年对商业边缘平台的大规模实证
研究表明 [1,4,5] , 这一现象的产生是因为边缘服务器所处理的作业负载主要由用户触发, 在某些时间段内, 边缘用户
对服务的需求量会突然增加, 导致边缘服务器的负载增加; 而其他时刻边缘服务器处理的负载量较低. 由于边缘服
务器的利用具有明显的潮汐现象, 许多边缘服务器的计算资源没有得到充分的利用.
与此同时, 云计算中的深度学习 (deep learning, DL) 训练等场景需要大量的计算资源, 由于计算资源紧缺, 经
常出现多个作业在队列中等待资源的现象 [6] . 因此, 为了充分利用边缘服务器上没有被利用的资源, 本文提出了一
种面向截止期敏感的深度学习训练作业的集群调度策略 EdgeFlow, 协同调度云计算资源和空闲的边缘计算资源.
该调度策略选择合适的深度学习训练作业在边缘服务器上执行, 以缓解云计算集群中计算资源紧张的问题, 并利
用弹性训练的优势, 根据集群资源利用率和作业的截止期实时改变云计算集群中的作业使用的 GPU 等计算资源
量, 既可以提高作业截止期满足率, 又能提高边缘服务器的利用率.
在这样的云边协同的场景下, 深度学习训练作业的调度问题面临以下两个难点: 首先, 边缘服务器和云计算集
群中的服务器、网络带宽等硬件资源具有异构性. 与云计算集群中常用于深度学习训练的 GPU 服务器相比, 边缘
服务器的计算能力往往较差, 且边缘服务器之间、边缘服务器和云计算集群之间的网络带宽较小. 因此, 如何根据
作业的截止期需求以及云、边缘的资源情况进行合理的资源分配, 具有一定的困难. 已有的面向截止期敏感的深
度学习作业调度方法均未考虑云和边缘服务器硬件的差异以及作业在不同硬件上的特性. 其次, 未来到来的深度
学习训练作业的时间、作业特性以及不同时刻可用的边缘服务器资源数量对于调度器来说是未知的, 因此调度器
不能直接基于所有信息直接做约束求解.
为了解决这样的挑战, 本文定义了云资源使用优先级, 以考虑到不同硬件和作业特点. 在每个事件 (新作业到
来、作业结束、可用的边缘服务器数量改变) 发生时, 本文算法 EdgeFlow 会根据作业的优先级和资源使用情况,
对每个作业使用的资源类型和数量进行重新调度, 以对不同的事件作出灵活的实施调整. 该算法的实现可以提高
边缘服务器的资源利用率, 同时使得更多的截止期敏感作业可以在截止期之前完成.
本文的主要贡献有: (1) 分析了在面向截止期敏感的深度学习训练作业的云计算集群中, 云边协同计算在提升
资源利用率、提高截止期满足率上的优势; (2) 提出了面向深度学习作业的云边协同调度策略 EdgeFlow, 包括一
个云计算集群的资源分配方法和一个作业分载算法; (3) 通过实验验证了 EdgeFlow 对于提升截止期满足率的有效
性, 并分析了 EdgeFlow 能够提升截止期满足率的原因.
本文第 1 节介绍边缘计算和深度学习作业调度的研究背景和相关工作. 第 2 节介绍云边协同可以为面向深度
学习作业的集群调度带来的优势. 第 3 节介绍 EdgeFlow 系统架构及其所解决的问题的描述. 第 4 节介绍本文设计
的云边协同的深度学习作业调度方法. 第 5 节通过实验验证了所提方法的有效性. 第 6 节讨论本文的局限性与未
来工作. 最后总结全文.
1 研究背景及相关工作
1.1 边缘计算
随着信息技术和通信技术的快速发展, 各种用户设备和物联网设备, 比如智能手机、摄像头、AR/VR 眼镜等
的普及, 使得各种实时服务的需求不断增多. 伴随着 4G/5G 以及 WiFi 的发展, 用户设备接入边缘设备 (比如移动

