Page 183 - 《软件学报》2021年第11期
P. 183
陈子璇 等:一种基于广义异步值迭代的规划网络模型 3509
练和测试,且在网络规划模块中,设置值迭代过程的循环次数 N=150.每个训练集中均设置了 5 个不同的种子用
于初始化网络模型,并在训练完成后,利用这 5 个网络模型分别进行测试.最终测试结果为这 5 个网络模型测试
结果的平均值.
根据表 3 中的数据对比可得:在未知的大规模真实路况地图上,利用在 100-节点的非规则图形中训练好的
模型进行测试时,GAVIN 的成功率和期望回报都远优于 GVIN;同时,前者进行训练时所需的节点更新次数还远
少于后者.这一结果说明:通过利用基于状态的异步更新方法,本文所提出的 GAVIN 在内部组成结构非常复杂
的大规模实际应用场景中,能够根据状态的优先级更好地规划出一条或多条成功到达目标点的路径,同时还能
够保证较高的规划效率.以上结论有力地验证了 GAVIN 在大规模实际应用场景中的适用性和有效性,这也充分
表明,这个改进的规划网络模型能为许多实际应用场景带来益处.
Table 3 Comparison of generalization abilities between GVIN and GAVIN
in real road maps under EWDQ training algorithm
表 3 情节式加权双 Q 学习训练算法下,GVIN 以及 GAVIN 在真实路况地图中的泛化能力对比
明尼苏达高速地图 纽约市区街道地图
性能指标
GVIN GAVIN-TBE GVIN GAVIN-TBE
成功率(%) 72.31 84.63 61.59 81.73
期望回报 0.713 8 0.831 3 0.593 1 0.798 2
更新次数 15 000 4 271 15 000 4 271
图 6 表示了经过 100-节点非规则图形训练后的 GAVIN(左)和 GVIN(右)在明尼苏达高速地图以及纽约市区
街道地图中的规划路径对比示例图(六角星表示目标点).从图中结果可明显看出,当给定的目标点与起始点相
距较远时,GVIN 所规划出的路径会无法成功达到目标点,而 GAVIN 则能够更好地规划出成功到达目标点的路
径.值得注意的是,表 3 中的更新次数在明尼苏达高速地图以及纽约市区街道地图中是相同的.原因为:用于在两
个地图环境中进行测试的模型均相同,即都是利用 100-节点的非规则图形训练好的 GVIN 模型或是 GAVIN 模
型,而更新次数表示的是模型在训练过程中所需要更新的节点数,所以即便是在不同的两个测试集中进行测试,
更新次数均为相同的.
(a) GAVIN 和 GVIN 在明尼苏达高速地图中所规划的路径 (b) GAVIN 和 GVIN 在纽约市区街道地图中所规划的路径
Fig.6 Examples of the planning paths of GAVIN and GVIN in the real road visualization experiments
图 6 GAVIN 和 GVIN 在真实路况可视化实验中的规划路径示例
4 结 论
本文提出了一种可微的广义异步值迭代网络模型——GAVIN.它可利用 IL 或 RL 算法进行端到端的训练,
处理具有非规则图形结构的任务,且产生的策略能用于更复杂的未知任务.通过在网络的值更新过程中使用基
于状态的异步更新方法,GAVIN 能获得高效且有效的规划过程,从而使其能在未知的非规则结构任务中获得较
好的泛化能力.同时,本文还将加权双估计器与情节式 Q 学习算法相结合,提出了一种用于训练网络参数的更高
效的 RL 算法——情节式加权双 Q 学习.与原算法相比,该算法显著提升了网络的泛化能力及训练稳定性.此外,