Page 173 - 《软件学报》2021年第11期
P. 173

陈子璇  等:一种基于广义异步值迭代的规划网络模型                                                       3499


                 信号值均为 0.f P 为用于生成图形卷积算子的函数,其中,训练参数 w P 用于参数化图形卷积算子.函数 f P 的输入信
                 息及内部具体结构将在第 1.2.1 节中进行介绍.R,P,V,Q 分别表示非规则图形的奖赏信号、图形卷积算子、状态
                 值图形信号以及状态-动作值图形信号.由于非规则图形的内部结构特性,这 4 个信号值在 GVIN 规划模块的计
                 算过程中均以矩阵向量的形式表示.















                                              Fig.1    Overall architecture of GVIN
                                                   图 1   GVIN 的整体结构
                    GVIN 规划模块中的第 n 轮值迭代过程可被形式化为:
                                                     ()a
                                                    Q n+ 1  =  ( )a  ( + P  R  γV n )                 (1)
                                                               ()a
                                                     V n+ 1  =  max Q n+ 1                            (2)
                                                             a
                    在 GVIN 的网络结构中,公式(1)以卷积层的形式呈现,图形卷积算子 P 相当于卷积核,其上的每个通道对应
                                   (a)
                 于智能体的每个动作,P 表示第 a 个通道上的图形卷积算子.公式(2)以最大池化层的形式呈现.
                    GVIN 中的规划模块近似地模拟了值迭代的过程.在 N 次迭代后,网络会获得图中各节点(即 MDP 中的状
                 态)的值函数,并最终利用这些值函数进行策略规划.迭代次数 N 的值,根据输入图形的大小及训练算法的种类
                 来设置.GVIN 中的网络参数利用 IL 或 RL 算法进行训练.在 RL 算法的训练过程中,智能体采取ε贪心策略选择
                 动作.在测试过程中,智能体采取贪心策略选择动作.
                 1.2.1    基于嵌入信息的核函数
                    从数学定义上来说,一个加权无向图可以被表示为 G=(ν,X,E)的形式,其中,ν={ν 1 ,…,ν N }表示一组节点;X 指
                 节点嵌入信息,第 i 个节点的嵌入信息为 X i ;E 表示一组边.如果图形的节点数目为 n,那么每个图形都可以用大
                 小为 n×n 的邻接矩阵 A 来表示.如果ν i 和ν j 之间有边相连接,则 A i,j =1;否则,A i,j =0.在 GVIN 中,用于进行非规则图
                 形图卷积操作的图形卷积算子被形式化为 P=f P (G;w P ),其中,每个元素的基本定义为 P                  , ij  = A , ij K w P  (X X  j ) ,其中,
                                                                                               ,
                                                                                               i
                 核函数 K  w P  (, )⋅⋅ 由 w P 进行参数化.这个定义意味着:无论是根据哪种核函数定义,输入 GVIN 的每张非规则图形
                 的图形卷积算子都是由其邻接矩阵和特定的核函数来共同定义的.GVIN 共提出了 3 种用于定义图形卷积算子
                 的核函数,本文只介绍其中能使得网络具有最优泛化能力的那一个——基于嵌入信息的核函数(embedding-
                 based kernel).
                    通过使用基于嵌入信息的核函数来定义的图形卷积算子,GVIN 能准确地获取非规则图形中隐藏的结构信
                 息,从而能在整张图形的每个节点上进行规划.在使用基于嵌入信息的核函数进行定义的图形卷积算子中,(i,j)
                 节点之间转移概率的定义为(GVIN 原文中该公式的定义有误,本文中该公式的定义已被修正)
                                                     I  + A
                                                                           ,
                                        P  =          ij=  , i j     K  (XX   )                       (3)
                                         , ij                         emb  i  j
                                                k ∑  (I kj  +  , k j ∑  )  k (I k i =  + A  A , i k )
                                                  =
                    当 i=j 时,指示函数 I i=j =1;否则为 0.A 为图形的邻接矩阵,若 i,j 节点之间有边相连,则 A i,j =1;否则,A i,j =0.基于
                 嵌入信息的核函数为 K emb (X i ,X j )=mnnet([X i −X j ]),其中,mnnet(⋅)表示一个标准的多层神经网络,w P 为该网络中的
                 权重.
   168   169   170   171   172   173   174   175   176   177   178