Page 277 - 《软件学报》2021年第8期
P. 277
蒲勇霖 等:Storm 平台下的线程重分配与数据迁移节能策略 2559
(1) 通过研究 Storm 集群的拓扑(topology)结构,建立 DAG、线程内的数据分配与路径开销这 3 个基本模
型,从逻辑上将 Storm 集群的拓扑运行情况与数据分配策略表示出来,为寻找最优的数据迁移方式创
造了条件,并为节能策略的提出奠定了理论基础.
(2) 根据 3 个基本逻辑模型以及集群内数据的传输及处理情况,建立了资源约束模型,通过 3 个条件证明
了资源约束模型的必要性,并进一步建立最优线程重分配模型,其中,线程的最优分配由资源约束模
型、通信成本、RR 与 CPU 优先级决定.在满足资源约束的条件下,实现了数据的迁移.
(3) 通过对集群内的数据进行分析,根据资源约束模型与最优线程重分配模型,提出了 Storm 平台下的线
程重分配与数据迁移节能策略(energy-efficient strategy based on executor reallocation and data
migration in Storm,简称 ERDM),该策略包括资源约束算法与数据迁移算法,其中,资源约束算法根据
节点资源约束判断工作节点是否允许数据迁移;数据迁移算法根据资源约束模型和最优线程重新分
配模型,确定了集群中数据的迁移情况.此外,实验通过 4 组基准测试 [19] ,从不同角度验证了算法的有
效性.
本文第 1 节针对目前国内外节能计算的相关研究进行总结与分析.第 2 节对 Storm 平台进行建模并给出相
关定义.第 3 节详细介绍 ERDM 的算法并建立能耗模型.第 4 节进行实验对比并对实验结果进行分析.第 5 节对
本文进行总结并对下一步工作进行展望.
1 相关工作
传统的大数据平台一直专注于延迟、容错性以及弹性计算等方面,但是随着 IT 行业能耗的不断增加,高能
耗以及散热问题已经开始制约大数据平台性能的进一步发展.因此,大数据平台的发展目标已经逐步转移到功
耗与能效方面.目前,用于大数据流处理平台的节能策略主要集中在硬件 [20] 与软件 [21] 两个方面.
硬件的节能策略主要体现在替换高能耗的电子元件 [22] 与对集群电源电压进行缩放管理 [23] ,以达到节能的
效果.该方法节能效果显著且操作简单,但其价格高昂不适合部署于大规模的集群当中.Wang 等人 [24] 使用了动
态电压频率缩放技术(dynamic voltage frequency scaling,简称 DVFS),通过动态管理集群节点 CPU 的电压,以实
现节能的目的.Pietri 等人 [25] 通过将流式处理平台的部分 CPU 替换成 GPU,使得 CPU 与 GPU 进行混合,从而减
少了集群处理图数据的能耗.实验结果表明,在节约 9.69%能耗的前提下,减少了 8.63%访问时间.文献[26−28]通
过替换高能耗的电子元件,从而提高了集群的能效,以达到节能的目的.软件的节能策略主要体现在建立能耗模
型 [29] 以及通过资源调度 [30] 提高集群的能效,以达到节能的效果.Cordeschi 等人 [31] 从虚拟化数据中心(virtualized
networked data center,简称 VNetDC)的角度出发,提出一种在 SaaS 模型下,针对实时处理应用的最小化能耗调度
策略.该研究针对流式大数据传输不稳定、不可控以及实时数据量大等特性,在不影响响应时间约束条件的前
[8]
提下,计算了最小化网络传输的总能耗.Cheng 等人 从流计算平台的本质出发,提出一种基于 Spark Streaming
自适应调度作业的节能策略.该策略通过在集群中构建一个实时能耗分析模型,并对数据流信息进行实时的捕
捉分析,根据分析结果对数据进行预处理,以此提高了集群性能并减少了部分时间开销,达到了节能的效果.文
献[32]提出一种作用于 Spark Streaming 的能耗分析基准测试方法,该方法通过使用机器学习算法,查找集群内
数据流的大小与通信开销的平衡.实验结果表明,当集群内数据流的大小与通信开销达到平衡时,集群执行任务
的功耗最小.Maroulis 等人 [33] 根据分析 Spark Streaming 在执行任务时性能与能耗的权衡,提出一种基于调度工
作负载的高效节能策略.该策略通过建立时间序列预测模型来捕获任务的执行时间与能耗,并通过使用 DVFS
技术来将集群的能耗降至最低.Veiga 等人 [34] 设计了一种作用于 Flink 的能耗评估工具,该工具通过分析集群执
行任务的工作负载,以找到不同条件下的集群能耗,为后期设计基于 Flink 的节能策略奠定了基础.文献[35]提出
一种可同时兼顾低延迟与低能耗的弹性数据流处理策略(keep calm and react with foresight: strategies for low-
latency and energy-efficient elastic data stream processing,简称 LEEDSP),该策略通过使用 DVFS 技术,建立了一
种弹性自适应性的能耗感知模型.该模型通过合理分配集群资源,在提高集群的吞吐量的同时,减少任务执行的
延迟,以此节约了集群的能耗.