Page 173 - 《软件学报》2021年第11期
P. 173
陈子璇 等:一种基于广义异步值迭代的规划网络模型 3499
信号值均为 0.f P 为用于生成图形卷积算子的函数,其中,训练参数 w P 用于参数化图形卷积算子.函数 f P 的输入信
息及内部具体结构将在第 1.2.1 节中进行介绍.R,P,V,Q 分别表示非规则图形的奖赏信号、图形卷积算子、状态
值图形信号以及状态-动作值图形信号.由于非规则图形的内部结构特性,这 4 个信号值在 GVIN 规划模块的计
算过程中均以矩阵向量的形式表示.
Fig.1 Overall architecture of GVIN
图 1 GVIN 的整体结构
GVIN 规划模块中的第 n 轮值迭代过程可被形式化为:
()a
Q n+ 1 = ( )a ( + P R γV n ) (1)
()a
V n+ 1 = max Q n+ 1 (2)
a
在 GVIN 的网络结构中,公式(1)以卷积层的形式呈现,图形卷积算子 P 相当于卷积核,其上的每个通道对应
(a)
于智能体的每个动作,P 表示第 a 个通道上的图形卷积算子.公式(2)以最大池化层的形式呈现.
GVIN 中的规划模块近似地模拟了值迭代的过程.在 N 次迭代后,网络会获得图中各节点(即 MDP 中的状
态)的值函数,并最终利用这些值函数进行策略规划.迭代次数 N 的值,根据输入图形的大小及训练算法的种类
来设置.GVIN 中的网络参数利用 IL 或 RL 算法进行训练.在 RL 算法的训练过程中,智能体采取ε贪心策略选择
动作.在测试过程中,智能体采取贪心策略选择动作.
1.2.1 基于嵌入信息的核函数
从数学定义上来说,一个加权无向图可以被表示为 G=(ν,X,E)的形式,其中,ν={ν 1 ,…,ν N }表示一组节点;X 指
节点嵌入信息,第 i 个节点的嵌入信息为 X i ;E 表示一组边.如果图形的节点数目为 n,那么每个图形都可以用大
小为 n×n 的邻接矩阵 A 来表示.如果ν i 和ν j 之间有边相连接,则 A i,j =1;否则,A i,j =0.在 GVIN 中,用于进行非规则图
形图卷积操作的图形卷积算子被形式化为 P=f P (G;w P ),其中,每个元素的基本定义为 P , ij = A , ij K w P (X X j ) ,其中,
,
i
核函数 K w P (, )⋅⋅ 由 w P 进行参数化.这个定义意味着:无论是根据哪种核函数定义,输入 GVIN 的每张非规则图形
的图形卷积算子都是由其邻接矩阵和特定的核函数来共同定义的.GVIN 共提出了 3 种用于定义图形卷积算子
的核函数,本文只介绍其中能使得网络具有最优泛化能力的那一个——基于嵌入信息的核函数(embedding-
based kernel).
通过使用基于嵌入信息的核函数来定义的图形卷积算子,GVIN 能准确地获取非规则图形中隐藏的结构信
息,从而能在整张图形的每个节点上进行规划.在使用基于嵌入信息的核函数进行定义的图形卷积算子中,(i,j)
节点之间转移概率的定义为(GVIN 原文中该公式的定义有误,本文中该公式的定义已被修正)
I + A
,
P = ij= , i j K (XX ) (3)
, ij emb i j
k ∑ (I kj + , k j ∑ ) k (I k i = + A A , i k )
=
当 i=j 时,指示函数 I i=j =1;否则为 0.A 为图形的邻接矩阵,若 i,j 节点之间有边相连,则 A i,j =1;否则,A i,j =0.基于
嵌入信息的核函数为 K emb (X i ,X j )=mnnet([X i −X j ]),其中,mnnet(⋅)表示一个标准的多层神经网络,w P 为该网络中的
权重.