Page 179 - 《软件学报》2025年第4期
P. 179
杨紫超 等: 基于性能建模的深度学习训练任务调度综述 1585
KubeShare [76] 、GaiaGPU [77] 、TGS [78] 、cGPU [79] ) 也为可行方向, 以避免任务多次迁移. 此外, 还可对深度学习训练
和 GPU 的底层运行机制的深入探索, 设计无需实测的仿真运行器, 从根本上消除建模开销.
● 面向新型任务的性能建模与调度. 随着各类新型深度学习模型及其资源利用方式的涌现, 具有新型性能特
征的任务为现有性能建模与调度方法带来了新的挑战. 如大模型的出现使得支持流水线并行的调度成为必需; 而
推理训练混合的新型任务部署形式, 使调度需满足高响应、高吞吐的混合需求. 为扩展现有方法以支撑新型任务,
具体而言, 有如下分析: (1) 大模型任务. 随着基于 Transformer [80] , BERT [28] 的大型预训练模型以及 ChatGPT [81] 、文
心一言 [82] 等大语言模型的出现, 单 GPU 显存已无法满足需求. 将模型切分为异构子任务, 并采取流水线并行训练
的方式已成为趋势. 然而, 现有方法仅支持同构子任务, 对计算和通信量具有差异的异构子任务难以适配. 在性能
建模方面, 现有方法需要提升灵活性, 支撑对各种切分方式下的异构子任务性能进行建模. 调度方面, 需探索大模
型的合理切分点, 并结合考虑流水线式的通信需求, 以避免因通信干扰导致的流水线气泡. (2) 推理训练混合任务.
近期工作 [6] 指出深度学习推理与训练任务混合部署的方案更加经济. 与训练时关注完成时间和吞吐率不同, 推理
更关注请求延迟、SLA (服务等级协议) 等指标. 因此, 在性能建模方面, 需探索如何预测不同用户负载下的推理延
时以及训练吞吐率. 在调度方面需考虑如何满足推理动态与训练静态的资源需求. 现有方法可考虑结合 GPU 弹性
资源分配机制, 探索混合部署下 GPU 配额的动态分配算法, 避免资源抢占造成的推理延迟上升.
● 关注隐私保障的性能建模与调度. 现有方法假设用户源代码与训练数据可获取. 然而, 用户的隐私需求已成
为如今人工智能服务提供商不可忽略的问题. 这为现有方法带来挑战. 下面在数据中心场景与云边端协同场景, 分
别分析以上挑战: (1) 源代码隐私保障 (数据中心场景). 在为向数据中心提交的任务进行性能建模时, 现有方法需
获取用户源代码, 以提取建模所需的特征. 为在保障隐私的前提下有效应用这些建模方法, 需要探索如何在避免接
触代码的情况下提取必要特征. CUPTI、Nsight 等工具支持剖析算子的执行跟踪. 因此, 现有方法可探索如何从执
行跟踪进行分析, 从而还原所需的算子特征. (2) 数据隐私保障 (云边端联邦学习场景). 云边端协同的联邦学习为
保护用户数据隐私提供了一种解决方案. 该场景中, 用户在本地执行训练, 而云端仅负责模型整合. 因此, 性能建模
与调度需要在无法实际接触用户数据和设备的情况下进行. 性能建模方面可以考虑扩展现有任务元信息方法, 将
用户侧非隐私信息融入任务元信息, 利用海量数据驱动来提升建模准确度. 在调度方面, 需探索可试错、可自适应
的调度方法, 避免因用户数据未知造成的用户间计算量不均衡, 从而提升训练效率.
5 总 结
本文全面概述了基于性能建模的深度学习训练任务调度的研究现状. 首先, 系统介绍了面向深度学习训练任
务的性能建模方法, 并对现有工作进行了分类整理, 涵盖了基于实测剖析、任务元信息、可组合算子以及计算图
结构的多种方法. 其次, 根据利用性能建模优化调度效果的策略, 对现有调度工作进行了分类整理, 将其划分为优
化任务排序、异构分配、弹性部署以及放置拓扑这 4 大类别, 深入阐述了性能建模在任务调度中的核心意义与作
用. 最后, 对基于性能建模的任务调度未来研究方向进行了展望. 通过本文的综述, 读者将对面向深度学习训练的
任务性能建模与调度有更全面的了解, 为相关研究和应用提供参考和借鉴, 也为未来本领域的研究方向提供了有
益的展望和启示.
References:
[1] Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, van der laak JAWM, van Ginneken B, Sánchez CI. A survey on
deep learning in medical image analysis. Medical Image Analysis, 2017, 42: 60–88. [doi: 10.1016/j.media.2017.07.005]
[2] Parekh D, Poddar N, Rajpurkar A, Chahal M, Kumar N, Joshi GP, Cho W. A review on autonomous vehicles: Progress, methods and
challenges. Electronics, 2022, 11(14): 2162. [doi: 10.3390/electronics11142162]
[3] Kortli Y, Jridi M, Al Falou A, Atri M. Face recognition systems: A survey. Sensors, 2020, 20(2): 342. [doi: 10.3390/s20020342]
[4] Liu YC, Zong CQ. End-to-end speech translation by integrating cross-modal information. Ruan Jian Xue Bao/Journal of Software, 2023,
34(4): 1837–1849 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6413.htm [doi: 10.13328/j.cnki.jos.006413]
[5] Khurana D, Koli A, Khatter K, Singh S. Natural language processing: State of the art, current trends and challenges. Multimedia Tools