Page 139 - 《软件学报》2020年第10期

P. 139

王康瑾等:在离线混部作业调度与资源管理技术研究综述 3115

4.4 面向在离线混部作业的调度模拟器
在作业调度算法研究中,使用模拟器验证由于具有快速、低成本等优点已成为重要的验证和评价手段.在
离线混部作业调度需要模拟器对作业间的性能干扰进行模拟,但是目前主流的调度模拟器,如 CloudSim [96] 以及
以 CloudSim 衍生模拟器 [97,98] 对于作业性能的模拟仅依据作业的资源分配,无法模拟混部作业在体系结构层次
竞争资源而引起的性能干扰.计算机体系结构模拟器(如 SMARTS [99] 、SimGodon [100] 、ZSim [101] 、Gem5 [102] 等)
虽然通过指令级模拟提供了精细再现作业的执行过程,可模拟多个作业在硬件上的资源竞争,但其缺点在于运
行速度慢,模拟一个主频为 3Ghz 的 CPU 一秒钟内执行的所有指令需要数分钟甚至更长时间,高额的开销使其
无法应用于大规模数据中心的模拟.文献[103]提出了微服务模拟器 uqSim,基于排队论模型模拟基于微服务架
构的在线作业的运行,但其局限性在于:(1) 只能模拟在线作业,无法模拟离线作业;(2) 无法模拟作业间的性能
干扰.
因此,目前仍缺乏面向在离线混部作业的调度模拟器.全方位模拟应用之间的依赖、干扰、竞争等关系,快
速分析和验证混部作业调度算法在不同场景下的运行效果,降低调度算法的调试与测试难度,是未来重要的研
究方向之一.
5 结束语

大规模数据中心是当今企业级互联网应用和云计算系统的关键支撑.然而,目前数据中心的服务器资源利
用率较低(仅为 10%~20%),导致大量的数据中心资源的浪费.将数据中心中的在线作业和离线作业混合部署在
同一节点上运行是提升数据中心资源利用率和数据中心成本效率的有效方法,具有较高的经济价值和研究价
值.但是,将在线作业和离线作业混合部署面临着诸多问题与挑战,包括:在离线混部作业性能干扰问题;在离线
混部作业调度问题;在离线作业的共享资源隔离问题;资源动态分配问题.
本文首先分析了上述问题与挑战,随后围绕在离线混部作业调度与资源管理技术研究框架,详细分析和总
结了已有研究工作,并结合多个系统实例分析了在离线混部关键技术在实际系统中的具体应用及运行效果.最
后,本文就未来的研究方向进行了展望.

References:
[1] Arman S, et al. United States data center energy usage report. Report, 2016.
[2] Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1):10.
[3] Zaharia M, Chowdhury M, Franklin MJ, et al. Spark: Cluster computing with working sets. In: Proc. of the Usenix Conf. on Hot
Topics in Cloud Computing. USENIX Association, 2010. 10.
[4] Vavilapalli VK, Murthy AC, Douglas C, et al. Apache hadoop yarn: Yet another resource negotiator. In: Proc. of the 4th Annual
Symp. on Cloud Computing. 2013. 1–16.
[5] Hindman B, Konwinski A, Zaharia M, et al. Mesos: A platform for fine-grained resource sharing in the data center. NSDI, 2011,11
(2011):22–22.
[6] Burns B, Grant B, Oppenheimer D, et al. Borg, Omega, and Kubernetes. Queue, 2016,14(1):70–93.
[7] Du XY, Lu W, Zhang F. History, present, and future of big data management systems. Ruan Jian Xue Bao/Journal of Software,
2019,30(1):127–141 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5644.htm [doi: 10.13328/j.cnki.jos.
005644]
[8] Baidu large-scale strategic colocation system evolution. https://www.infoq.cn/article/aEut*ZAIffp0q4MSKDSg
[9] Verma A, Pedrosa L, Korupolu M, et al. Large-scale cluster management at Google with Borg. In: Proc. of the 10th European Conf.
on Computer Systems. 2015. 1–17
[10] Chen S, Delimitrou C, Martínez JF. PARTIES: QoS-aware resource partitioning for multiple interactive services. 2019. [doi:
10.1145/3297858.3304005]
[11] Zhu HS, et al. Kelp: QoS for accelerated machine learning systems. In: Proc. of the 2019 IEEE Int’l Symp. on High Performance
Computer Architecture (HPCA). IEEE, 2019.

134 135 136 137 138 139 140 141 142 143 144