Page 179 - 《软件学报》2021年第11期
P. 179
陈子璇 等:一种基于广义异步值迭代的规划网络模型 3505
3.1 实验环境及参数设置
给定起始节点和目标节点,本节中的实验考虑如何使得智能体在具有非规则图形结构的环境中规划出一
条或多条能够成功到达目标节点的最优路径.要注意的是:最优路径可以是自定义的,不一定为最短路径.用于
进行实验的数据集分别为非规则图形(10-节点、100-节点)以及真实路况地图(明尼苏达高速地图、纽约市区街
道地图,实验中所使用的非规则图形及真实路况地图数据集的来源为:https://github.com/sufengniu/GVIN/tree/
master/data).图 3 表示了实验中所用的 3 种数据集.网络中的规划模块被表示为特定类型的卷积神经网络,网络
中编码的网络参数可以通过反向传播算法进行训练.所有实验均使用学习率为η=0.001 的标准 RMSProp 算法
作为优化器,RMSProp 衰减因子为 0.999.对于利用 IL 算法作为训练算法的网络,其具体训练方法为采用特定数
据集中的专家样本进行训练;对于利用 RL 算法训练的网络,训练算法为情节式 Q 学习算法和情节式加权双 Q
学习算法.所有实验中所用的图形卷积算子均使用基于节点嵌入信息的核函数进行定义,该核函数的结构是一
个 3 层全连接神经网络(32-64-1),每层均使用 ReLU(⋅)=max(0,⋅)作为激活函数,网络权重使用期望为 0、方差为
0.01 的正态分布进行初始化.所有网络所用的图形卷积算子的通道数目均被设置为 10.在网络的测试过程中,所
有实验的立即奖赏设置相同,即在每个时间步之后,除了已到达目标节点的情况外,智能体会获得一个与其步长
相关联的负奖赏−0.1*L,其中,L 表示每一时间步的步长.当在限定步数之内到达目标节点时,智能体会获得一个
+1 的奖赏;而在网络的训练过程中,实验中增大了智能体在每一时间步所获的负奖赏,将其变为−5×L,而智能体
到达目标节点时所获的正奖赏仍保持不变.为了增大训练及测试的难度以突显 GAVIN 以及利用情节式加权双
Q 学习算法进行训练的网络的优势,本文实验中的一个重要参数的设置与文献[12]中的设置不同,即奖赏值:在
文献[12]中,无论是训练还是测试过程,智能体在每一时间步的奖赏值均为−0.01×L,而到达目标节点的奖赏值仍
为+1.因此,本文所获得的实验结果也会与文献[12]中的数据有一定的差异.
(a) 100-节点的非规则图形 (b) 可视化后的明尼苏达高速地图 (c) 可视化后的纽约市区街道地图
Fig.3 Examples of three types of data sets used in the visualization experiments
图 3 可视化实验中所用的 3 种数据集示例
网络的性能使用 3 个指标来进行量化,分别为成功率、期望回报和更新次数.成功率是指:在其所采取的当
前步数超过最大步数限制之前,智能体能够成功地从起始节点到达目标节点的概率.这个指标反映了网络在训
练任务中的规划性能以及在未知的测试任务中的泛化能力.期望回报,即策略的期望累积奖赏,其大小与网络所
规划出的路径长度直接相关.无论是在训练任务还是在测试任务中,该指标均反映了网络所规划的策略的质量.
成功率和期望回报越高,网络的规划性能及泛化能力就越好.更新次数是指网络在训练时,完成整个规划过程所
需进行值更新的节点数目,该指标可用于比较网络的规划效率.
3.2 情节式Q学习算法下的网络训练性能对比
该实验利用情节式 Q 学习算法分别训练 GVIN 和 GAVIN,并评估了它们的训练结果.实验中,用于进行训练
的数据集的类型为 10-节点的非规则图形.在网络规划模块中,值迭代过程的循环次数 N=15.训练集大小分别为
1 428 张、4 285 张、8 571 张,各占数据集大小的 1/7、3/7、6/7.每个训练集中均设置了 5 个不同的种子用于初
始化网络模型,最终训练结果为这 5 个模型训练结果的平均值.