Page 110 - 《软件学报》2025年第12期
P. 110

谷典典 等: 云边协同的深度学习作业调度方法                                                          5491


                 知的调度方法, 因此截止期满足率较低; EDF            虽然是截止期感知的, 但其调度方法没有充分利用深度学习训练作
                 业的特点, 在调度深度学习训练作业的场景下截止期满足率的表现欠佳; ElasticFlow                    可以根据云计算集群资源紧
                 张程度、每个深度学习作业的特点和每个深度学习作业的截止期, 动态调整作业使用的资源数量, 但该方法无法
                 利用空闲的边缘服务器资源为紧张的             GPU  集群资源分载作业, 因此其截止期满足率仍有提升空间. EdgeFlow                不
                 仅可以灵活、充分利用云计算集群的             GPU  资源, 还可以将合适的作业分载至空间的边缘服务器, 因此在                ElasticFlow
                 的基础上进一步提升了截止期满足率.


                                                           0.6
                       0.8
                                                           0.5                                Gandiva
                     截止期满足率  0.4                          截止期满足率  0.4                         AFS
                       0.6
                                                                                              Tiresias
                                                           0.3
                                                                                              EDF
                                                                                              ElasticFlow
                       0.2                                 0.2                                EdgeFlow
                                                           0.1
                        0                                   0
                         (a) 阿里巴巴集群作业提交踪迹的截止期满足率              (b) Philly 集群作业提交踪迹的截止期满足率
                                              图 4 端到端实验中的截止期满足率

                    在本节的端到端实验中, 平均每个作业在其生命周期内的迁移次数为                         34.9  次, 其中平均云-边迁移次数为
                 0.6  次. 平均每个作业迁移开销约为       3 min, 与深度学习训练作业执行的总时长相比, 这一开销较小. 而且, 即使存在
                 这样的开销, EdgeFlow  仍可以取得比基线方法更高的截止期满足率.
                  5.4   消融实验
                    为了探究    EdgeFlow  实现的不同优化对     EdgeFlow  最终的截止期满足率分别带来多少提升, 我们在第              5.1  节踪
                 迹  1  的实验设定下进行了消融实验, 图        5  展示了消融实验的结果. 其中, ElasticFlow+Edge 指的是用      ElasticFlow  的
                 调度算法进行调度, 并利用可用的边缘服务器资源, 但调度器没有使用第                       4.3  节所表述的分载算法选取分载到边
                 缘服务器的作业, 而是将边缘服务器资源和云计算集群中的                    GPU  视为同样的算力. 通过图      5  可以看出, 利用空闲
                 的边缘服务器资源可以在一定程度上提高截止期满足率, 但是如果忽略不同作业在不同硬件上执行的性能特性,
                 截止期满足率并不能得到较大的提升. 只有充分利用可利用的边缘服务器, 并且选择合适的作业分载至这些边缘
                 服务器, 才能对截止期满足率带来更多的提升.


                                              0.8
                                             截止期满足率  0.6           ElasticFlow

                                                                   ElasticFlow+Edge
                                              0.4
                                                                   EdgeFlow
                                              0.2

                                               0
                                      图 5 不同优化对     EdgeFlow  提升截止期满足率的效果提升

                  5.5   影响因素分析
                    为了进一步探究       EdgeFlow  在不同因素影响下效果的差异, 我们通过控制变量的方法每次只改变实验设定中
                 的一个变量, 然后模拟作业提交后          EdgeFlow  和其他基线调度器的调度结果.
                    我们首先探究作业提交时间间隔            (即: 相邻的两个作业提交的提交时间之差) 对             EdgeFlow  的影响. 与现有工
                 作  [30]  一致, 我们手动生成了具有不同平均作业提交时间间隔的作业提交踪迹. 图                  6(a) 展示了在不同作业提交间隔
   105   106   107   108   109   110   111   112   113   114   115