Page 178 - 《软件学报》2021年第11期
P. 178

3504                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                    20.     T=T+1;
                    21. UNTIL T>T max
                    在算法 1 中可看出,情节式加权双 Q 学习仍保留了在情节结束时更新网络权重的属性.但与原算法不同,情
                                                                                                 w′
                 节式加权双 Q 学习算法引入了行为网络和目标网络来共同完成网络参数的更新.算法利用行为网络 Q 来选择
                                                              w
                 最优动作和最差动作,并根据这两个动作,利用目标网络 Q 构建加权函数β.通过这个加权函数,对行为网络 Q                                  w′
                            w
                 和目标网络 Q 进行加权线性求和,并将这个加权线性组合作为目标值来计算损失函数,以获取梯度来更新可训
                 练的网络权重.这一操作不仅有效缓解了原算法中存在的值过高估计问题,同时还避免了直接使用双 Q 学习算
                 法时可能面临的值被过低估计问题,最终在值被过高估计与值被过低估计之间达到平衡                               [18] .因此,在使用情节式
                 加权双 Q 学习算法训练规划网络时,智能体可使用一个更有效且更稳定的规划方案来完成每个训练情节.
                 2.3   新型图形卷积算子

                    在 GVIN 及 GAVIN 中,图形卷积算子 P 由邻接矩阵 A、图形中各节点嵌入信息 X 以及核函数共同确定.
                 对于任意一张图,邻接矩阵即反映了图中各节点的度(与节点相关的边的数目)的分布情况.这就意味着,该图形
                 卷积算子将受到图中每个节点的度的分布的影响.在各节点进行信息交互及信息传递的过程中,节点的度决定
                 了该节点在该过程中的重要性,即决定了该节点所能接收的信息量.因此,网络中基于图卷积操作的规划结果也
                 会受到节点的度的分布的影响           [23−25] .而在规划过程中,由于动作的目标导向性,目标节点及其附近的节点应是更
                 为重要的,但如果输入网络的非规则图形中远离目标节点的某些节点具有相对较大的度的话,那么由于图形卷
                 积算子的影响,在规划过程中,图形中其他节点上的信息转移到这些具有较大度的节点的概率就会越大,这可能
                 会使得智能体在规划过程中混淆各节点的重要性,从而导致具有较大度的节点会具有相对较大的状态值,有时
                 会超过与目标节点相连的节点甚至是目标节点的状态值,导致网络最终规划性能的下降.
                    为了尽可能避免网络的规划过程中出现上述这一现象,本文对 GVIN 中提出的由基于嵌入信息的核函数定
                 义的图形卷积算子进行了改进.由于核函数 K emb (X i ,X j )关注的是如何准确学习到图中任意两个节点之间的隐藏
                 结构信息,其并没有考虑到整个非规则图形中节点的组成结构,因此本文并不考虑对核函数进行改动.从公式(3)
                 的定义可看出,在这种类型的图形卷积算子 P 中,图形的邻接矩阵利用一个分数形式的操作进行了归一化,并形
                 成一个激活系数,该激活系数利用图形中各节点的连接性来激活核函数中相连节点之间的转移信息.但这个分
                 数形式的激活系数定义存在着一个弊端——它会使得任意两个相连节点之间的转移概率相同,即 P i,j =P j,i .如果
                 两个相连的节点中的其中一个节点的度较大,而另一个节点的度较小时,利用这种形式的激活系数可能会造成
                 不公平的转移概率分配,从而出现上文所述的严重后果.本文基于这个激活系数对原有的图形卷积算子进行了
                 改进,在新的图形卷积算子中,(i,j)节点之间转移概率为
                                                     I ij=  + A , i j
                                                                      ,
                                             P ′ =  , ij      α  ⋅  K emb (XX  j )                   (12)
                                                                     i
                                                  ⎡  I  + A  )⎤ ∑ (
                                                      =
                                                  ⎢  k  ik  , i k  ⎦ ⎥ ⎣
                 其中,α=1.与原始的图形卷积算子不同,改进后的图形卷积算子 P′仅考虑了单个节点的节点度.对于任意两个节
                 点,利用这个新定义的激活系数不仅能确定节点之间的连接性,还能够根据它们各自的度来合理分配节点之间
                 转移概率的大小,即对于度相对较大的节点,图中其他节点上的信息转移到它的概率就相对较小.网络利用这一
                 改进后的图形卷积算子进行规划运算可有效地弱化图形中节点的度的分布对规划结果的影响,进而提高网络
                 的规划性能以及其在未知任务中的泛化能力.

                 3    实验结果及分析

                    在不同规模的非规则图形以及真实路况地图中,本节对所提出的广义异步值迭代网络 GAVIN 的训练性能
                 (即在训练集中的性能)、泛化能力(即在测试集中的性能)及规划性能(即在真实路况地图中的性能)进行了全面
                 评估,并对情节式加权双 Q 学习及新型图形卷积算子的有效性进行了验证.
   173   174   175   176   177   178   179   180   181   182   183