Page 167 - 《软件学报》2025年第4期
P. 167
杨紫超 等: 基于性能建模的深度学习训练任务调度综述 1573
时间, 此方法需要获取任务执行时间. 因此, 实验假设任务执行时间可通过性能建模来得到, 并对比了建模的平均
相对误差 (mean relative error, MRE) 为 0、10%、25%、50% 和 75% 时的不同调度情况. 同时, 实验也与性能无感
的最少获得服务优先 (LAS) [27] 调度方法进行了对比.
PCIe x16 PCIe 主桥 QPI 总线 网络
松散放置 密集放置 1.0
效率低 效率高 0.8
节点 1 任务 1 节点 1 0.6
任 任 归一化吞吐率
务 务 0.4
1 2
0.2
节点 2 任务 2 节点 2
VGG16 ResNet50
(a) 放置拓扑敏感性示例 (b) VGG16, ResNet50 不同放置拓扑的归一化吞吐率
图 3 任务放置拓扑敏感性
[6]
实验数据来自两个商业 GPU 集群: 一个是来自阿里巴巴集团的 GPU 集群 PAI (包含 6 742 块 GPU), 持续跟
踪了 2 个月的数据; 另一个是来自微软公司的 GPU 集群 [7] (包含 2 490 块 GPU), 也持续跟踪了 2 个月的数据 (称
为 Philly 数据集). 这两个数据集都涵盖了超过 100 000 个任务. 在数据处理阶段, 从每个数据集中抽取连续提交的
10 000 个任务, 并记录它们的任务提交和执行时间. 最后, 在一个包含 64 个同构 GPU 的仿真集群中, 按照跟踪数
据中的提交时间来模拟这些任务的调度情况. 实验采用平均任务完成时间 ( JCT ) 作为调度性能指标, 该值越小表
示任务完成效率越高. 调度结果如图 4 所示, 其中, 0、10%、25%、50% 和 75% 是当 MRE 设置为对应值时的表
现, LAS 则对应最少获得服务优先情况下的表现. 当建模的执行时间与实际情况误差在 10% 以内时, 调度效果明
显优于其他情况. 当误差超过 25% 时, 调度效果显著下降. 完全不使用性能建模的调度方法表现最差. 这些结果清
晰地表明, 准确的性能建模对于优化任务排序和提升整体调度效果至关重要.
PAI
1.6
Philly
归一化的 JCT 表现 1.4
1.5
1.3
1.2
1.1
1.0
0.9
0% 10% 25% 50% 75% LAS
MRE MRE MRE MRE MRE
不同调度设置
图 4 不同调度设置对 JCT 的影响
本实验中, Tiresias [27] 调度方法通过建模任务执行时间合理规划任务优先级, 与性能无感的调度方法相比, 显
著提升训练效率. 其他的调度方法可能利用性能建模采取其他的优化策略来进行调度优化. 第 3 节将详细介绍这
些方法如何利用性能建模进行优化.
1.4 挑 战
本节旨在深入剖析性能建模与调度所面临的挑战. 从宏观视角出发, 性能建模的核心问题在于如何精准映射
资源与任务性能之间的关系, 而调度则需要解决任务与资源之间的最优匹配问题. 这两者共同关注的两大关键要
素是任务和资源. 然而, 这两大要素均展现出极强的多样性, 从而为性能建模与调度带来了诸多挑战, 具体表现在
以下几个方面.