Page 140 - 《软件学报》2021年第12期
P. 140

3804                                Journal of Software  软件学报 Vol.32, No.12, December 2021

             本文第 1 节介绍基础理论,包括 RBM 和 CGAN.第 2 节详细介绍 ARBM 及其相应的深生成模型 ADBN 和
         ACGAN.在第 3 节中,本文通过实验验证所提出模型的有效性.最后一部分是结论和展望.
         1    相关工作

         1.1   受限玻尔兹曼机
             典型的 RBM 模型由可见层 x 和隐藏层 h 组成,RBM 的联合概率可以通过能量函数来定义, RBM 模型及其
         基于 Gibbs 采样的训练过程示意图可以表示为图 1 的形式.

                       c   Hidden layer  h                  Hidden layer  h
                                  ...                             ...
                       W
                                  ...               ...                       ...
                       b    Visible layer  x  Visible layer  x           Visible layer  x
                      PARAMs      Data                      Reconstructed data
                                 Fig.1    Topology of an RBM and its training process
                                      图 1   RBM 的拓扑结构及其训练过程
             在图 1 中,W 是可见层和隐藏层之间的权值矩阵.如果可见层单元和隐藏层单元是二值的,那么能量函数可
         以定义如下:
                                              ii ∑
                                    (, )h =−∑
                                   Ex       v n  a x −  h n  b h − ∑ j ∑  v n  h n  h × W ×  x i  (1)
                                                                 ji
                                                             j
                                                    j
                                           i=  1  j=  1  i=  1 j=  1
         其中,a 和 b 是 RBM 的偏置,x 表示可见层向量,h 表示隐藏层向量,W 是权值矩阵.基于能量函数 E(x,h),联合分布
                         −1
         可以表示为 p(x,h)=Z exp(−E(x,h)),可见层单元和隐藏层单元的激活函数可以表示如下:
                                       ( p h =  k  1| )x =  sigmoid (b +  k ∑ i= N V 1  w x  )  (2)
                                                               ki i
                                       ( px =  k  1| )h =  sigmoid (a +  k ∑ N j= H 1 h w kj )  (3)
                                                               j
             典型 RBM 模型的目标是最大化其边缘分布 p(x)的 log 似然,这个目标函数可以表示为
                                             ⎛       ⎞   ⎛    (, )h ⎞
                                                 ( , )h
                                L =  ln( ( ))px =  ln ⎜  px  ⎟∑  =  ln ⎜  e − Ex  ⎟∑  −  ln( )Z  (4)
                                 s
                                             ⎝  h    ⎠   ⎝  h    ⎠
             根据极大似然估计,似然函数关于参数的梯度可以表示如下:
                                 ∂  ln ( )px      ∂  E ( , )x h  ∂  E ( , )x h
                                             (|)x
                                        =−∑  ph         + ∑  p ( , )x h                       (5)
                                    θ ∂    h        ∂  θ  , x h    ∂  θ
             将公式(5)表示为期望的形式,可以得到:
                                    ∂  L      ⎡  ∂  Ex      ⎡  ∂  E ( , )x h ⎤
                                                (, )h ⎤
                                      s  =  E px    ⎥  −  E p h   ⎥                           (6)
                                                         ( | ) x ⎢
                                           (, ) h ⎢
                                     ∂  θ     ⎣  ∂  θ       ⎣  ∂  θ⎦  ⎦
             如公式(6)所示:等式右边的第 1 项称为模型期望,第 2 项称为数据期望,两个期望的差值决定了似然函数关
         于参数的梯度.直观上看,数据期望给出了参数迭代的起始条件,模型期望提供了迭代的终止条件.随着迭代的
         进行,数据期望和模型期望逐渐接近,RBM 的训练随迭代趋于稳定.此时,RBM 模型建模了输入样本的分布特性.
         然而在大样本下,精确地计算这两个期望是非常困难的,尤其是模型期望.因此,为了降低 RBM 训练的复杂度,需
         要对似然函数的梯度做近似.为此,Hinton 等学者提出了对比散度算法(contrastive divergence,简称 CD)来近似似
         然函数的梯度.除了对比散度算法,还有其他一些类型的方法可以用于近似计算 RBM 的梯度                              [11−13] .
         1.2   条件生成对抗网络
             作为近些年最受关注的生成模型,生成对抗网络(generative adversarial  net,简称 GAN)得到了广泛的应用.
         GAN 的优势在于可以回避难以直接计算的基于模型分布的积分函数,只使用反向传播就可以根据梯度训练生
   135   136   137   138   139   140   141   142   143   144   145