Page 140 - 《软件学报》2021年第12期
P. 140
3804 Journal of Software 软件学报 Vol.32, No.12, December 2021
本文第 1 节介绍基础理论,包括 RBM 和 CGAN.第 2 节详细介绍 ARBM 及其相应的深生成模型 ADBN 和
ACGAN.在第 3 节中,本文通过实验验证所提出模型的有效性.最后一部分是结论和展望.
1 相关工作
1.1 受限玻尔兹曼机
典型的 RBM 模型由可见层 x 和隐藏层 h 组成,RBM 的联合概率可以通过能量函数来定义, RBM 模型及其
基于 Gibbs 采样的训练过程示意图可以表示为图 1 的形式.
c Hidden layer h Hidden layer h
... ...
W
... ... ...
b Visible layer x Visible layer x Visible layer x
PARAMs Data Reconstructed data
Fig.1 Topology of an RBM and its training process
图 1 RBM 的拓扑结构及其训练过程
在图 1 中,W 是可见层和隐藏层之间的权值矩阵.如果可见层单元和隐藏层单元是二值的,那么能量函数可
以定义如下:
ii ∑
(, )h =−∑
Ex v n a x − h n b h − ∑ j ∑ v n h n h × W × x i (1)
ji
j
j
i= 1 j= 1 i= 1 j= 1
其中,a 和 b 是 RBM 的偏置,x 表示可见层向量,h 表示隐藏层向量,W 是权值矩阵.基于能量函数 E(x,h),联合分布
−1
可以表示为 p(x,h)=Z exp(−E(x,h)),可见层单元和隐藏层单元的激活函数可以表示如下:
( p h = k 1| )x = sigmoid (b + k ∑ i= N V 1 w x ) (2)
ki i
( px = k 1| )h = sigmoid (a + k ∑ N j= H 1 h w kj ) (3)
j
典型 RBM 模型的目标是最大化其边缘分布 p(x)的 log 似然,这个目标函数可以表示为
⎛ ⎞ ⎛ (, )h ⎞
( , )h
L = ln( ( ))px = ln ⎜ px ⎟∑ = ln ⎜ e − Ex ⎟∑ − ln( )Z (4)
s
⎝ h ⎠ ⎝ h ⎠
根据极大似然估计,似然函数关于参数的梯度可以表示如下:
∂ ln ( )px ∂ E ( , )x h ∂ E ( , )x h
(|)x
=−∑ ph + ∑ p ( , )x h (5)
θ ∂ h ∂ θ , x h ∂ θ
将公式(5)表示为期望的形式,可以得到:
∂ L ⎡ ∂ Ex ⎡ ∂ E ( , )x h ⎤
(, )h ⎤
s = E px ⎥ − E p h ⎥ (6)
( | ) x ⎢
(, ) h ⎢
∂ θ ⎣ ∂ θ ⎣ ∂ θ⎦ ⎦
如公式(6)所示:等式右边的第 1 项称为模型期望,第 2 项称为数据期望,两个期望的差值决定了似然函数关
于参数的梯度.直观上看,数据期望给出了参数迭代的起始条件,模型期望提供了迭代的终止条件.随着迭代的
进行,数据期望和模型期望逐渐接近,RBM 的训练随迭代趋于稳定.此时,RBM 模型建模了输入样本的分布特性.
然而在大样本下,精确地计算这两个期望是非常困难的,尤其是模型期望.因此,为了降低 RBM 训练的复杂度,需
要对似然函数的梯度做近似.为此,Hinton 等学者提出了对比散度算法(contrastive divergence,简称 CD)来近似似
然函数的梯度.除了对比散度算法,还有其他一些类型的方法可以用于近似计算 RBM 的梯度 [11−13] .
1.2 条件生成对抗网络
作为近些年最受关注的生成模型,生成对抗网络(generative adversarial net,简称 GAN)得到了广泛的应用.
GAN 的优势在于可以回避难以直接计算的基于模型分布的积分函数,只使用反向传播就可以根据梯度训练生