Page 178 - 《软件学报》2025年第4期
P. 178
1584 软件学报 2025 年第 36 卷第 4 期
能耗性价比的 GPU 资源量以及放置拓扑, 并与网络打包/伙伴分配 [73] 的集中放置策略相结合, 进一步优化全局任
务拓扑, 避免因集群碎片造成的额外能耗开销.
与弹性部署优化情况类似, 支持优化放置拓扑的调度可在较多的资源配置种类之间选择, 因此上述方法大多
采取低开销性能建模方法. Gandiva [24] 采取了高开销的实测剖析法, 则因此造成了任务执行初期的低效情况. 在上
述方法中, SMD [68] 较为特别, 原因在于它的调度算法与它设计的基于可组合算子的性能建模方法深度耦合, 这使
得在扩展此方法的适用场景时面临一定的挑战.
3.6 对比与小结
表 10 展示了对本节综述的调度方法在多个维度上的对比. 这些调度方法利用性能建模, 分别针对任务排序、
异构分配、弹性部署、放置拓扑进行优化, 依次对任务多样性挑战、异构亲和度多样性挑战、弹性部署配置多样
性挑战和放置拓扑多样性挑战进行解决, 进而从不同维度优化调度效果.
表 10 基于性能建模的调度方法对比
性能建模利用方式 (调度算法设计依据)
外, 现有方法在用户隐私方面不具备保障. 针对这些局限性, 本节将展望可能产生突破的研究方法与方向, 以期为
利用性能建模的 应对挑战 性能建模
调度优化策略 方法倾向性 优先级 规划 图匹配 贪心 其他
算法 算法 算法 算法 算法
优化任务排序 任务多样性挑战 实测剖析法 √ √ √ - -
实测剖析法 (少量异构)
优化异构分配 异构亲和度多样性挑战 - √ - - 统一量化/交错迭代
任务元信息法 (大量异构)
优化弹性部署 弹性部署配置多样性挑战 低开销方法 - - √ √ 强化学习
优化放置拓扑 放置拓扑多样性挑战 低开销方法 - √ - √ 迁移试错
在性能建模方法的选择上, 当调度涉及的资源配置种类相对较少时, 建模相对准确、设计和实现较为便捷、
且更贴近实际执行环境的实测剖析法往往更受青睐. 而在需要优化弹性部署或放置拓扑的场景中, 低开销建模方
法则因其高效性而更具优势.
在性能建模信息的利用方式 (即调度算法设计依据) 方面, 规划模型因其问题映射难度相对较低、求解理论
丰富完备以及拥有众多现成的求解器和算法而备受推崇, 多种方法通过精心设计规划模型来充分利用性能建模信
息. 相比之下, 图匹配算法虽然在快速求解方面也有一定优势, 但由于问题映射上的难度较高, 因此仅被少数方法
采用. 贪心算法虽然在理论上不能保证得到最优解, 但在处理大规模调度问题时却能展现出快速求解的能力, 因此
也受到了一些研究的关注. 优先级算法则主要应用于针对任务排序的方法中, 专注于设定合理的优先级来优化任
务排序. 此外, 还有一些其他的性能建模利用方式, 如统一量化、强化学习等. 这些方法的设计思路与其对应的调
度优化策略紧密相关, 对特定策略的优化效果十分显著, 但难以在不同策略间直接进行迁移和适配.
4 展 望
第 2、3 节对深度学习训练的性能建模及调度进行了全面概述. 然而, 现有方法在新型应用场景上仍存在一定
局限性. 如在对延时敏感的场景下, 现有实测剖析法的显著开销使其难以有效应用. 在为最近涌现的新型任务 (如
大模型任务、推理训练混合任务) 进行性能建模与调度时, 其特殊的任务性能特性将导致现有方法难以适配. 此
未来深度学习训练任务的性能建模与调度提供更加有效和灵活的解决方案.
● 面向低延时需求的性能建模方法. 随着人工智能的发展, 面向广大用户群体的廉价云 GPU 租赁服务大量涌
现. 此类集群中, 由学生和研究者提交的短期训练任务 (5–10 min) 居多. 这些任务主要用于调测、测试, 对任务调
度的延时和响应时间有较高的要求. 然而, 现有基于实测剖析的性能建模方法由于涉及资源分配和任务实测过程,
开销较高, 难以实现低延时调度. 为降低开销, 未来研究可考虑与任务快速启停迁移技术 (如 Singularity [74] 、Non-
Intrusive [75] ) 结合, 通过降低任务启停开销至毫秒级别, 降低资源分配开销. 同时, 结合 GPU 虚拟化技术 (如