Page 182 - 《软件学报》2021年第11期
P. 182

3508                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                 GAVIN 中所执行的规划过程更高效且更有效,从而具有更好的泛化能力.同时,从表 2 中的第 1 列及第 3 列数据
                 对比可看出,采用情节式加权双 Q 学习算法进行训练的网络,不仅能在训练性能上远优于采用情节式 Q 学习算
                 法进行训练的网络,而且在网络的泛化能力方面也具有同样的优势.这一结果有力地验证了本文中所提出的情
                 节式加权双 Q 学习算法的有效性.除此之外,从表 1 中第 3 列、第 4 列及表 2 中第 4 列、第 5 列的数据对比可
                 看出,对于不同的优先级方法,GAVIN-TBE 的泛化能力会略优于 GAVIN-BE.结合第 3.2 节中的训练结果来看,
                 在优先级定义中考虑节点之间的转移模型,能够使得网络中所执行的异步值更新过程更为有效.
                    Table 1    Comparison of generalization abilities between GVIN using different graph convolution operators
                                   and GAVIN (GAVIN-BE/GAVIN-TBE) under IL training algorithms
                                      表 1   IL 训练算法下,使用不同图形卷积算子的 GVIN 及
                                         GAVIN(GAVIN-BE/GAVIN-TBE)的泛化能力对比

                                                                  网络模型
                        性能指标
                                         GVIN          GVIN-newP        GAVIN-BE         GAVIN-TBE
                        成功率(%)           60.70           64.81            78.38            81.72
                        期望回报            0.552 6         0.593 3          0.746 4           0.784 7
                        更新次数              300            300               138              124
                    Table 2    Comparison of generalization abilities between GVIN using different graph convolution operators
                                  and GAVIN (GAVIN-BE/GAVIN-TBE) under RL training algorithms
                                     表 2   RL 训练算法下,使用不同图形卷积算子的 GVIN 及
                                         GAVIN(GAVIN-BE/GAVIN-TBE)的泛化能力对比
                                                                网络模型
                       性能指标
                                    GVIN       GVIN-newP     GVIN-EWDQ       GAVIN-BE     GAVIN-TBE
                      成功率(%)        62.97        77.71          77.82         82.43          85.32
                       期望回报         0.577 8      0.740 5       0.752 9        0.806 1       0.847 7
                       更新次数          150          150            150           23             30

                 3.5   不同图形卷积算子下的网络泛化能力对比
                    该实验在 GVIN 上对改进后的图形卷积算子的性能进行评估.除了图形卷积算子中激活系数的定义与原始
                 图形卷积算子中的定义不同之外,该实验中的其他实验设置均与第 3.4 节中的实验设置相同.
                    表 1 中的第 2 列及表 2 中的第 2 列数据分别表示的是采用了改进后的图形卷积算子的 GVIN 在 IL 及 RL
                 算法训练后的测试结果.经由这两列数据与表 1 中的第 1 列及表 2 中的第 1 列数据对比可得:采用了改进后的
                 图形卷积算子的网络在未知的测试任务上的泛化能力明显优于采用原始图形卷积算子的网络,且相比于利用
                 IL 训练算法进行训练的网络,在 RL 训练算法下,改进后的图形卷积算子为网络泛化能力带来的提高更为明显.
                 这一结果说明:本文中所提出的改进后的图形卷积算子能够有效地解决原图形卷积算子中存在的转移概率分
                 配不公平的问题,进而提高了网络的规划能力,使得网络产生的策略可以在未知的测试任务中获得更好的泛化
                 能力.在利用 RL 训练算法所得到的网络中,由于转移概率对算法性能的影响较大,因此该改进后的图形卷积算
                 子给网络性能带来的提高也会尤为明显.
                 3.6   不同算法在真实路况地图中的网络泛化能力对比
                    该实验利用经过情节式加权双 Q 学习算法训练后的 GVIN 及 GAVIN 模型,在真实路况地图中进行测试,
                 并通过测试结果比较网络在大规模实验应用场景中的泛化能力.其中,GAVIN 中的优先级定义方法为第 2 种方
                 法,即 GAVIN-TBE.实验中:用于进行训练的数据集为 100-节点的非规则图形,训练集为 8 571 张,占数据集大小
                 的 6/7;用于进行测试的数据集分别为明尼苏达高速地图以及纽约市区街道地图.其中,明尼苏达高速地图包含
                 了 2 632 个用以表示路口的节点以及 6 606 条用以表示道路的边,纽约市区街道地图包含了 5 069 个用以表示
                 路口的节点以及 13 368 条用以表示道路的边.实验中 GVIN 和 GAVIN 均采用了改进后的图形卷积算子进行训
   177   178   179   180   181   182   183   184   185   186   187