Page 173 - 《软件学报》2025年第4期

P. 173

杨紫超等: 基于性能建模的深度学习训练任务调度综述 1579

习, 快速地在不同资源配置间迁移使用. 同时, 与基于计算图结构的方法相比, 其所需的训练数据也较少 (仅需采集
算子数据, 无需在大量模型上采集数据), 因此数据采集开销也相对较低, 面对多样化的资源配置具有较强适应能
力. 相比之下, 基于规则的分析模型在面对新的资源类型时, 可能需花费人力重新设计/调优算子的性能分析规则,
因此适应能力较弱. 但值得注意的是, 相较于实测剖析法, 可组合算子法在人工设计负担上有所降低, 因为它主要
针对算子性能进行分析, 而大量算子在同架构/同世代 GPU 之间存在共性 (具有相同核函数). 分析规则可在这些
GPU 之间复用, 从而降低了人工设计的复杂性.

2.6 对比与小结
表 5 展示了对本节所详述的任务性能建模方法在多个关键维度上的细致对比. 在建模思路上, 实测剖析法主
要依赖于人工设计的分析模型, 而任务元信息与计算图结构法则更倾向于采用数据驱动的模型. 可组合算子法在
两种思路上均有所涉猎, 显示出其方法的灵活性.

表 5 任务性能建模方法对比

性能建模方法分类模型使用开销任务信息粒度建模思路建模误差任务多样性挑战资源配置多样性挑战
以应对弹性部署配置多样性挑战; (4) 优化放置拓扑, 以应对放置拓扑多样性挑战. 这些方法借助性能模型, 通过
实测剖析法高－分析模型低优势劣势
任务元信息法低粗数据驱动模型一般劣势优势
计算图结构法低中等数据驱动模型一般优势较优
分析模型
可组合算子法低细偏高优势优势 (数据驱动模型)/较劣 (分析模型)
数据驱动模型

在建模准确度方面, 实测剖析法由于紧密依托任务的实测运行时特征, 更贴近真实运行环境, 因此其建模误差
相对较低. 其他 3 类方法在建模准确度上表现相当, 其中可组合算子法稍显逊色, 这主要归因于它在建模时未能充
分考虑算子以外的运行时开销. 尽管如此, 实测剖析法的高准确度是以更高的性能建模使用开销为代价的, 尤其是
对于新任务而言, 其实测开销是不可避免的.
针对任务多样性挑战, 任务元信息法显现出明显的短板. 这主要是因为其关注的任务信息层次较为粗放, 难以
深入挖掘多样化任务内部的细微特征. 在面对资源配置多样性挑战时, 依赖分析模型的方法由于受限于人工制定
的规则, 其适应能力明显受限. 在采用数据驱动模型的方法中, 可组合算子法凭借其轻量级的数据需求实现了快速
迁移, 从而更轻松地适应了新的资源配置环境. 相比之下, 计算图结构法则涉及大量的数据采集开销, 在与能够直
接利用丰富任务性能数据进行驱动的任务元信息法相比时, 其在面对多样资源配置时稍显不足. 然而值得一提的
是, 计算图结构法相较于需要人工重新设计分析模型的实测剖析法仍具有较大的优势.
综上所述, 各种任务性能建模方法在不同挑战和场景下均展现出了独特的优劣势, 为实际应用提供了多样化
的选择与思考角度.

3 基于性能建模的任务调度

3.1 方法分类模型
基于性能建模的调度方法能够利用性能模型, 通过不同调度优化策略来提升调度效果. 这些策略主要包括:
(1) 优化任务排序, 以应对任务多样性挑战; (2) 优化异构分配, 以应对异构亲和度多样性挑战; (3) 优化弹性部署,

这 4 类策略对调度过程进行优化, 从而有效应对调度挑战. 相较于性能无感的调度方法, 可显著提升调度效果. 本
节根据这 4 类策略, 分类探讨了这些调度方法如何利用性能建模来增强调度效果.
本节的表格中, “调度目标”列明确了每种调度方法旨在提升的特定调度效果, 包括完成效率、截止时间、收
敛效率、成本效率以及公平性. “性能建模方法”列指方法采用的性能建模途径, 对应于第 2 节所述的 4 类方法.
“性能建模需求”列则展示了调度算法所需的性能指标. “性能建模利用方式”列展示了该方法利用性能建模设计的
调度算法类型. “实验设置”列则简要展示了该调度方法实验验证的集群与任务规模. “效果”列则简要展示该方法

168 169 170 171 172 173 174 175 176 177 178