Page 110 - 《软件学报》2025年第12期

P. 110

谷典典等: 云边协同的深度学习作业调度方法 5491

知的调度方法, 因此截止期满足率较低; EDF 虽然是截止期感知的, 但其调度方法没有充分利用深度学习训练作
业的特点, 在调度深度学习训练作业的场景下截止期满足率的表现欠佳; ElasticFlow 可以根据云计算集群资源紧
张程度、每个深度学习作业的特点和每个深度学习作业的截止期, 动态调整作业使用的资源数量, 但该方法无法
利用空闲的边缘服务器资源为紧张的 GPU 集群资源分载作业, 因此其截止期满足率仍有提升空间. EdgeFlow 不
仅可以灵活、充分利用云计算集群的 GPU 资源, 还可以将合适的作业分载至空间的边缘服务器, 因此在 ElasticFlow
的基础上进一步提升了截止期满足率.

0.6
0.8
0.5 Gandiva
截止期满足率 0.4 截止期满足率 0.4 AFS
0.6
Tiresias
0.3
EDF
ElasticFlow
0.2 0.2 EdgeFlow
0.1
0 0
(a) 阿里巴巴集群作业提交踪迹的截止期满足率 (b) Philly 集群作业提交踪迹的截止期满足率
图 4 端到端实验中的截止期满足率

在本节的端到端实验中, 平均每个作业在其生命周期内的迁移次数为 34.9 次, 其中平均云-边迁移次数为
0.6 次. 平均每个作业迁移开销约为 3 min, 与深度学习训练作业执行的总时长相比, 这一开销较小. 而且, 即使存在
这样的开销, EdgeFlow 仍可以取得比基线方法更高的截止期满足率.
5.4 消融实验
为了探究 EdgeFlow 实现的不同优化对 EdgeFlow 最终的截止期满足率分别带来多少提升, 我们在第 5.1 节踪
迹 1 的实验设定下进行了消融实验, 图 5 展示了消融实验的结果. 其中, ElasticFlow+Edge 指的是用 ElasticFlow 的
调度算法进行调度, 并利用可用的边缘服务器资源, 但调度器没有使用第 4.3 节所表述的分载算法选取分载到边
缘服务器的作业, 而是将边缘服务器资源和云计算集群中的 GPU 视为同样的算力. 通过图 5 可以看出, 利用空闲
的边缘服务器资源可以在一定程度上提高截止期满足率, 但是如果忽略不同作业在不同硬件上执行的性能特性,
截止期满足率并不能得到较大的提升. 只有充分利用可利用的边缘服务器, 并且选择合适的作业分载至这些边缘
服务器, 才能对截止期满足率带来更多的提升.

0.8
截止期满足率 0.6 ElasticFlow

ElasticFlow+Edge
0.4
EdgeFlow
0.2

0
图 5 不同优化对 EdgeFlow 提升截止期满足率的效果提升

5.5 影响因素分析
为了进一步探究 EdgeFlow 在不同因素影响下效果的差异, 我们通过控制变量的方法每次只改变实验设定中
的一个变量, 然后模拟作业提交后 EdgeFlow 和其他基线调度器的调度结果.
我们首先探究作业提交时间间隔 (即: 相邻的两个作业提交的提交时间之差) 对 EdgeFlow 的影响. 与现有工
作 [30] 一致, 我们手动生成了具有不同平均作业提交时间间隔的作业提交踪迹. 图 6(a) 展示了在不同作业提交间隔

105 106 107 108 109 110 111 112 113 114 115