Page 181 - 《软件学报》2021年第11期
P. 181

陈子璇  等:一种基于广义异步值迭代的规划网络模型                                                       3507


                 3.3   不同RL训练算法下的网络训练性能对比
                    该实验分别使用情节式 Q 学习算法及情节式加权双 Q 学习算法训练 GVIN,并比较不同训练算法下 GVIN
                 的训练性能.实验中,用于训练的数据集为 10-节点的非规则图形,训练集有 8 571 张,占数据集大小的 6/7;且在网
                 络规划模块中,设置值迭代过程的循环次数 N=15.每个训练集中均设置了 5 个不同的种子用于初始化网络模型,
                 最终训练结果为这 5 个模型训练结果的平均值.
                    图 5 中的实验结果展示了利用情节式 Q 学习和情节式加权双 Q 学习作为训练算法的 GVIN 的训练性能.
                 在情节式加权双 Q 学习中,为了验证加权函数β的大小对于算法性能的影响,本文为参数 c 设置了 3 个不同大小
                 的值,分别为 1,10,100.根据算法 1 中函数β的定义可知,c 越大,算法就越接近于使用双估计器的算法;c 越小,算法
                 就越接近于使用单估计器的算法.如图 5 所示,从成功率及期望回报这两个指标来看,利用情节式加权双 Q 学习
                 算法训练的网络会远好于利用情节式 Q 学习算法训练的网络.这一结果说明:利用情节式加权双 Q 学习算法进
                 行训练能使得网络的规划过程更为有效,从而获得更好的训练性能.除此之外,从利用情节式加权双 Q 学习算法
                 所得到的网络的训练结果中,随着训练过程中情节数的增多,当 c=1 时,由于近似于使用单估计器,网络会产生过
                 高估计的现象;在 c=100 时,由于近似于使用双估计器,网络会产生过低估计的现象;在 c=10 时,网络相当于使用
                 加权双估计器进行计算,能较好避免过高和过低估计的问题,因而获得更好的训练效果.后续实验中,将使用
                 c=10 得到的网络模型进行测试.















                                  EWDQ(c=100)        EWDQ(c=10)        EWDQ(c=1)           EQ

                          Fig.5    Comparison of training performance between GVIN using episodic Q-learning (EQ)
                                    and GVIN using episodic weighted double Q-learning (EWDQ)
                       图 5   利用情节式 Q 学习(EQ)和情节式加权双 Q 学习(EWDQ)得到的 GVIN 的训练性能对比
                 3.4   不同算法在非规则图形中的网络泛化能力对比

                    该实验分别利用经过 IL 算法及 RL 算法训练后的 GVIN 及 GAVIN 模型,在与训练集不同且结构更为复杂
                 的非规则图形中进行测试,并通过测试结果比较网络的泛化能力.实验中:用于进行训练的数据集为 10-节点的
                 非规则图形,训练集为 8 571 张,占数据集大小的 6/7;用于进行测试的数据集为 100-节点的非规则图像,测试集为
                 1 428 张,占数据集大小的 1/7.对于利用 IL 算法作为训练算法的网络,在网络规划模块中,设置值迭代过程的循
                 环次数 N=30;对于利用 RL 算法训练的网络,在网络规划模块中,设置值迭代过程的循环次数 N=15.该循环次数
                 的设置,能使网络充分更新节点值函数并训练出较好的模型.每个训练集中均设置了 5 个不同的种子用于初始
                 化网络模型,并在训练完成后,利用这 5 个网络模型分别进行测试.最终测试结果为这 5 个网络模型测试结果的
                 平均值.
                    根据表 1 及表 2 中的数据对比可得:无论是利用 IL 算法还是 RL 算法进行训练,在未知的、且结构更复杂
                 的非规则图形上进行测试时,GAVIN 的成功率和期望回报都远优于 GVIN;同时,前者进行训练时所需的节点更
                 新次数还远少于后者.这一结果说明:尽管在每一轮异步值迭代过程中,GAVIN 中需更新的节点个数远少于
                 GVIN 中需更新的节点个数,但前者所更新的节点均为那些能给网络的规划性能带来显著提升的节点,这使得
   176   177   178   179   180   181   182   183   184   185   186