Page 140 - 《软件学报》2021年第8期
P. 140

2422                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 温度保持在较低的状态.
                     Table 7    Proportion of running three tasks under four methods that do not meet the time constraint (%)
                                     表 7  4 种方法下运行 3 种任务不满足时间约束的占比(%)
                            任务               Linux         ReLeTA           LTB            DSM
                           canneal            0               2              0              41
                            dedup             0               3              14             5
                           facesim            0               0              0              4

                    除温度和性能,本文对 3 种方法下的时间开销进行了统计评估,总结见表 8.此处的时间开销是指各个方法
                 从系统读取状态到最终完成任务调度的时间间隔,3 种方法的平均开销都在保证在 1ms 以内,但是 DSM 运行任
                 务过程中的最大开销是其他两种方法的 3 倍左右.因为 DSM 读取了温度循环再进行了一系列的计算得到真正
                 的状态,再计算各个动作下的 Q 值,中间的计算量较大,所以时间开销最大(并且 DSM 动作包括了任务映射和调
                 频).本文方法的开销高于 LTB,主要由于本文状态模型更为复杂.
                                          Table 8    Time overhead under the three methods
                                                 表 8  3 种方法下的时间开销
                                           方法      平均时间开销(ms)      最大时间开销(ms)
                                           DSM         0.776            3.76
                                           LTB         0.296            1.04
                                          ReLeTA       0.540            1.3

                 6    总   结

                    多核系统的温度管理已经成为多核系统领域一个重要的研究课题,由于机器学习方法在各个方面的应用
                 均取得巨大突破,受到了关注.其中,强化学习作为灵活性最高的机器学习算法,被广泛运用于各种复杂动态决
                 策问题.目前已经有很多基于强化学习的系统温度管理研究工作,然而当前存在的基于强化学习的系统温度管
                 理方法在状态和奖励函数建模中均存在一些问题,使得算法很难实现性能、温度和复杂度得较好平衡.通过对
                 当前相关工作的总结,本文提出了全新的状态建模和奖励函数建模方法,并且在不同真实的硬件平台上使用不
                 同的任务集进行了全面的实验评估.相比于现有的两种方法,本文所提的 ReLeTA 方法可以实现更好的温度管
                 理,降低系统的峰值温度和平均温度.ReLeTA 在本文中仅仅考虑了任务的调度,为了能够实现一个全方位的温
                 度管理系统,需要进一步考虑主动控制系统的频率.在未来的工作中,我们将进一步将如何有效主动控制系统频
                 率考虑到 ReLeTA 中.

                 References:
                 [1]    Rudi A, Bartolini A, Lodi A, et al. Optimum: Thermal-aware task allocation for heterogeneous many-core devices. In: Proc. of the
                     2014 Int’l Conf. on High Performance Computing & Simulation (HPCS). IEEE, 2014. 82−87.
                 [2]    Saito H, Yoneda T, Nakamura Y. An ILP-based multiple task allocation method for fault tolerance in networks-on-chip. In: Proc. of
                     the 2012 IEEE 6th Int’l Symp. on Embedded Multicore SoCs. IEEE, 2012. 100−106.
                 [3]    Tang H, Feng X. Train running time allocation algorithm based on dynamic programming. In: Proc. of the 32nd Chinese Control
                     Conf. IEEE, 2013. 8157−8160.
                 [4]    Rowlings M, Tyrrell AM, Trefzer MA. Social-insect-inspired adaptive task allocation for many-core systems. In: Proc. of the 2016
                     IEEE Congress on Evolutionary Computation (CEC). IEEE, 2016. 911−918.
                 [5]    Rathore V, Chaturvedi V, Singh AK, et al. Life guard: A reinforcement learning-based task mapping strategy for performance-
                     centric aging management. In: Proc. of the 2019 56th ACM/IEEE Design Automation Conf. (DAC). IEEE, 2019. 1−6.
                 [6]    Mitchell TM. Machine Learning. McGraw-Hill, 2003.
                 [7]    Pagani S, Manoj PDS, Jantsch A, et al. Machine learning for power, energy, and thermal management on multicore processors: A
                     survey. IEEE Trans. on Computer-aided Design of Integrated Circuits and Systems, 2020,39(1):101−116.
   135   136   137   138   139   140   141   142   143   144   145