Page 131 - 《软件学报》2021年第8期
P. 131

杨世贵  等:基于强化学习的温度感知多核任务调度                                                        2413















                          Fig.3    Comparison of the same reward function under different environmental state models
                                         图 3   相同奖励函数,不同环境状态模型下的对比















                           Fig.4    Comparison of the same environment state model and different reward functions
                                         图 4   相同环境状态模型,不同奖励函数下的对比
                 3.2   DSM
                    本文还研究了当前另一种基于强化学习的温度管理算法                     [20] ,后文中简称该方法为 DSM.在 DSM 中,作者使
                 用两个指标:热应力(由于温度变化使得芯片在各种约束下所有的应力反应)和老化程度作为最小化温度的环境
                 状态,并将这两个指标加入到奖励函数的计算结果中.该方法采用了一个较为复杂的动作空间,同时对任务进行
                 调度并相应地主动调节系统频率.在奖励函数中,DSM 将延迟考虑进去,通过加入延迟约束来同时优化温度和
                 保证延迟.然而通过实验发现,此方法并不能在这温度和性能两者之间达到一个很好的平衡.使用之前相同的计
                 算平台,采用 DSM 方法调度程序 facesim 进行实验,选择 test 为程序的输入集,因 DSM 需要加入一个约束延迟,
                 通过实验测试 facesim 在本次实验环境下的最低运行时间为 4.0s,最高运行时间为 19.0s.我们选择将 DSM 的延
                 迟设置为 5s,反复调用 1 200 次.
                    图 5 展示了第 850 次~第 885 次的运行实验结果,包含了程序运行时间和系统温度.















                        Fig.5    Peak temperature of the system and the running time of facesim under the DSM method
                                     图 5   DSM 方法下系统的峰值温度和 facesim 的运行时间
   126   127   128   129   130   131   132   133   134   135   136