Page 171 - 《软件学报》2025年第4期

P. 171

杨紫超等: 基于性能建模的深度学习训练任务调度综述 1577

相较之下, 中小规模集群的任务在时序方面规律较弱, 因此针对这类集群的工作更关注从任务资源使用特征
挖掘元信息. Harmony [44] 针对 PS 架构下分布式任务之间的通信干扰, 基于强化学习方法建模. 该方法利用历史数
据拟合多层感知机模型, 将任务的参数服务器数量、计算节点数量作为元信息特征, 将吞吐率作为预测目标. 随
后, 将吞吐率预测模型作为任务放置的奖励函数, 通过在线上运行收集数据, 不断训练强化学习策略, 反馈式地调
节吞吐率预测模型. 与前述方法不同, GENIE [46] 针对不同放置拓扑的通信开销进行细化分析, 将分布式任务训练拆
解为计算与同步通讯的两个过程, 随后分别为每个过程建立回归模型, 通过收集大量离线任务的放置拓扑, 以及
GPU 占用量, 通信资源占用量等元信息, 来拟合不定系数, 从而在线上为其他任务进行建模. 以上这些不依赖时序
规律的方法对适用的集群没有要求, 然而由于仅从资源视角提取特征, 难以对任务内部的变化进行感知, 因此面对
多样化的任务时处于劣势.
尽管这类方法对解决资源配置多样性存在优势, 但这类方法主要从元信息视角提取任务特征, 并不关心深度
学习模型的内部结构. 这导致在面对未见过的新模型结构时泛化性能较差, 因此在应对任务多样性挑战时存在困难.

2.4 基于计算图结构的方法
表 3 展示了基于计算图结构的任务性能建模方法. 深度学习模型实质上是由算子构成的有向无环计算图, 因
算图特征, 该数据结构大幅压缩了特征空间. 随后, 该方法利用
此这类方法端到端地从计算图整体结构中提取特征, 并直接利用这些特征构建学习模型来预测性能指标.

表 3 基于计算图结构的任务性能建模方法

建模指标
成果建模选型分布式训练任务/数据集效果
执行时间吞吐率收敛效率
Horus [48] 、文献[49] XGBoost －－ √ － 19种CNN模型吞吐率误差偏高 (约11.3%)
[50] [51]
DNNAbacus AutoML －－ √ － 29种DNN模型吞吐率误差一般 (约7.1%)
DNNPerf [52] GCN －－ √ － 5种CNN模型吞吐率误差偏高 (约12.8%)
执行时间误差一般 (约8%)
[53]
Driple GCN √ √ √ √ 10种DNN模型
迁移时间较低 (比重新训练降低7.3倍)

为应对任务多样性的挑战, 可通过深入理解任务内部结构特征, 设计统一的特征提取方法, 提高模型对多样化
任务的适用性. 为应对资源配置多样性, 可通过提升性能模型在不同资源配置之间的迁移适配能力, 提升对多样资
源配置的适应性. 基于计算图结构的方法采取以上思路来应对这两类挑战. 这类方法能够利用图特征编码、图特
征压缩等通用性强的技术, 有效地从计算图结构中提取特征, 避免在面对多样性任务时出现方法不适用的情况. 面
对资源配置多样性时, 这类方法通常采取迁移学习来进行模型的适配. 具体的, 基于计算图结构的方法通常采取图
神经网络、决策树、AutoML [51] 等模型进行特征提取与性能建模, 包括如下方面.
一些研究采用人工设计特征工程, 并辅以机器学习模型的方法进行建模. 比如, Horus [48] 和 Yeung 等人 [49] 对
GPU 共享任务的吞吐率进行预测. 这些方法将计算图结构特征压缩提取为一维向量, 包括卷积层数量、线性层数
量、待训练权重量、浮点计算量、batch size 等. 随后使用 XGBoost 决策树模型预测 GPU 共享时的利用率波动,
进而预测吞吐率. 而 DNNAbacus [50] 则设计了创新的网络结构化矩阵 (network structural matrix) 数据结构来表示计
AutoML [51] 自动搜索合适的模型结构, 训练能够同
时建模吞吐率与显存占用量的模型. 以上方法需要人工设计特征工程, 以便进行计算图的特征提取, 其建模在特定
数据集下可能具有较优的效果. 但是当出现新类型的算子、计算图结构时, 可能需花费人力对特征工程进行更新、
细化, 具有较高设计成本.
另一些研究则探索使用图神经网络 (GNN) 直接对计算图进行特征编码和建模. 比如, DNNPerf [52] 利用图卷积
神经网络 (GCN), 分别使用算子类型与算子执行依赖的特征端到端地预测吞吐率. 该方法提出了基于注意力机制
的节点-边编码器, 对算子间数据传递进行细化特征提取, 从而提高了建模准确度. 然而, DNNPerf 的限制在于其仅
支持在单一种类资源配置下的建模. 针对此问题, Driple [53] 考虑到弹性部署、放置拓扑的多样性可能导致泛化性
差, 因此通过图分组、聚合的技术压缩特征量, 并利用迁移学习的方法使预训练模型能够快速适应各类不同种类

166 167 168 169 170 171 172 173 174 175 176