Page 111 - 《软件学报》2025年第12期
P. 111
5492 软件学报 2025 年第 36 卷第 12 期
λ 倍. 我们可
下调度器的调度结果, 其中横轴表示当前作业提交记录的平均作业提交时间间隔是初始提交记录的
以看出, EdgeFlow 在不同的作业提交时间间隔下都能保证比基线方法更高的截止期满足率, 且作业提交时间间隔
越小, EdgeFlow 对截止期满足率的提升越大. 这是因为作业提交的时间间隔越小, 集群资源和边缘服务器资源越
紧张, EdgeFlow 对分载作业的选择越有优势; 而作业提交时间间隔足够大时, 在同样的时间范围内, 云计算集群资
源只需要执行更少的训练作业, 云计算集群资源不再紧张, 因此基线调度器也可以使得提交的作业具有较高的截
止期满足率.
1.0 1.00
Gandiva 0.8
截止期满足率 0.6 Gandiva EDF AFS 截止期满足率 0.50 AFS 截止期满足率 0.6 Gandiva EDF
0.8
Tiresias
0.75
0.4
0.4
EdgeFlow
EDF
0.25
Tiresias
0.2
ElasticFlow
AFS
ElasticFlow
ElasticFlow 0 EdgeFlow 0.2 Tiresias EdgeFlow
0.5 1.0 2.0 4.0 16 32 34 128 2 4 8 16
λ 云计算集群中的 GPU 个数 空闲边缘服务器个数
(a) 作业提交时间间隔的影响 (b) 云计算集群中的 GPU 个数的影响 (c) 空闲边缘服务器个数的影响
图 6 不同因素对 EdgeFlow 的影响
如果将一组同样的作业提交到不同大小的云计算集群上, 云计算集群拥有的计算资源越多, 能在截止期前完
成的作业越多. 图 6(b) 展示了踪迹 1 中的作业提交到具有不同 GPU 个数的云计算集群上之后可以满足截止期需
求的作业的比例, EdgeFlow 在所有云计算集群大小下都能使得截止期满足率高于基线方法. 在云计算集群非常小
时, 大量的作业需要等待已提交的作业完成后才能执行, 即使有可以利用的空闲边缘服务器, 这些边缘服务器所提
供的算力也只能执行少量的作业负载, 因此只有少数作业在截止期之前完成. 在云计算集群足够大时, 提交到集群
的作业无需等待过多时间即可执行, 因此, 即使不利用空闲的边缘服务器, 也有相当大一部分作业能在截止期之前
完成. 在云计算集群中有用的 GPU 数量适中时, EdgeFlow 通过将部分作业分载至边缘服务器, 在缓解云计算集群
资源紧张程度的同时让云计算集群资源得到更高效的利用, 从而更充分发挥空闲边缘服务器带来的优势.
空闲的边缘服务器的数量不同, 可被分载至边缘服务器的作业数量不同, 因此会带来不同的截止期满足率.
图 6(c) 展示了踪迹 1 中的作业提交到云计算集群后, 如果可用的空闲边缘服务器数量不同, 分别会有多少作业满
足截止期需求. 由于基线方法均不利用空闲的边缘服务器, 图 6(c) 只展示了本文提出的 EdgeFlow 方法的截止期
满足率. 在可利用的边缘服务器个数较少时, 只有少量的作业可以被分载至边缘服务器, 因此 EdgeFlow 只能带来
少量的优势. 当可利用的空闲边缘服务器数量足够多时, 因为深度学习训练作业在边缘服务器上的训练速度比在
GPU 上的训练速度慢. 为了保证在云计算集群执行可以满足截止期需求的作业不因为被分载至边缘服务器而违
背截止期, EdgeFlow 的作业分载算法不会将空闲边缘服务器全部利用起来, 而是只利用算法所需的部分边缘服务
器, 因此, 在边缘服务器足够多时, 作业的截止期满足率不会再随着空闲边缘服务器数量的增加而增加. 基线方法
无法灵活使用空闲边缘服务器的资源, 截止期满足率不随空闲边缘服务器个数而改变.
6 局限性与未来工作
本文面向的场景是在云计算集群和空闲边缘服务器上调度截止期敏感的深度学习训练作业. 但本文具有一定
的局限性, 例如: (1) 本文的优化目标为提升集群中截止期敏感作业的截止期满足率, 而对于有些场景 (例如, 部分
作业没有截止期需求、作业有优先级等), 本文方法不适用. 本文算法可以被进一步扩展, 以适配更多的场景. (2) 在
实际集群中, 可能会有随机的节点故障. EdgeFlow 当前的设计可能将云计算集群中的全部节点都用于作业的执行,
若节点出现故障, 则可能导致部分作业的截止期无法被满足. (3) 本文为了简化边缘服务器的场景, 同时统一考虑
不同边缘服务器的配置和资源使用情况, 只较为保守地为边缘服务器上的每个作业调度一个 GPU. 而在实际场景
中, 不同边缘服务器上的空闲 GPU 数量可能不同.

