Page 128 - 《软件学报》2020年第10期
P. 128
3104 Journal of Software 软件学报 Vol.31, No.10, October 2020
宽、总线带宽等诸多关键资源仍然缺乏对应的软硬件协同的资源隔离机制,尚无法实现应用级隔离;其次,在目
前高度复杂的硬件上通过软件方法精准控制作业对于硬件资源的竞争需要同时考虑操作系统和硬件架构的具
体实现,而多数商用硬件具有黑盒性,极大地增加了使用软件方法隔离硬件资源的难度,因此具有挑战性.
1.2.4 资源动态分配问题
在离线作业的资源需求随作业负载而发生动态变化 [30] .为保障在线作业的响应时间并提升集群资源利用
率,需根据负载的变化动态分配相应的资源,优化资源配比.然而,一方面,在离线混部作业间存在的不可知且复
杂的干扰会严重影响作业的性能;另一方面,作业资源配比的变化也会影响性能干扰的程度,进而产生作业的性
能变化.因此,如何在资源动态分配过程中平衡资源利用率和作业性能也是一个难题,也称为近年来的研究热
点 [19] .
首先,资源重分配带来的性能干扰变化难以建模和量化,作业性能难以预测和保障.如前所述,动态变化的
作业负载、多样化的资源依赖以及异构硬件架构等均会影响作业性能,使得在各种干扰条件下的性能预测变得
极具挑战性.资源重分配改变了作业的关键资源瓶颈,刷新了资源依赖关系,重置了性能对干扰的敏感度,带来
了一系列不可控的连锁反应,更加剧了性能干扰的变化和不确定性.其次,资源类型多样复杂,资源间存在互补、
互替代、单向依赖、多向依赖等复杂关系,使得资源分配策略搜索空间极大,限制条件极为复杂.最后,在线作业
的实时负载波动和高性能需求要求资源动态分配具备精准和快速的特性.然而,由于复杂性能干扰导致作业性
能难以预测,依靠有限的负载变化、混部作业组合变化等信息快速做出精准的资源分配决策极为困难.
2 相关研究工作
2.1 研究框架
针对上述问题和挑战,本文从在离线混部作业性能干扰模型、集群层面的作业调度以及节点层面的资源管
理这 3 个方面进行研究,如图 2 所示.
Fig.2 Research framework
图 2 研究框架
性能干扰模型.为了解决在离线混部作业的性能干扰问题,须就作业的运行环境对性能的影响进行建模,以
预测作业在动态负载、资源竞争及干扰模式等条件下的性能,为集群作业调度和节点资源管理提供指导.
集群层混部作业调度.混部作业调度所研究的内容是作业的放置问题,即决定作业的运行位置.混部作业调
度是一个多目标优化问题,在传统作业调度的优化目标上,还需要优化在离线作业间的性能干扰,同时满足在线
作业的 SLA,兼顾作业吞吐率等要求.