Page 143 - 《软件学报》2021年第12期
P. 143

张健  等:基于实值 RBM 的深度生成网络研究                                                         3807


                                                                         −1
         隐式表达具有更高的概率密度,并且该样本以近似为 p(z=1|x)的概率被映射到以β vW 为中心、 3 β                           − 1  为邻域
                                                                              −1
         的区间内;反之,当样本点远离流形时,它以 p(z=0|x)的近似概率被映射为高斯噪声 N(0,β ).
                                                                (i)
             证明:假设一个 mini-batch 包含 N 个样本,基于公式(9),如果样本 x 位于流形附近,其相似性系数ε(i)则会相
                                              (i)
                   (i)
                                   (i)
         对较高.与 x 对应的附加单元 z 以概率 p(z =1|x)激活,与相似性系数ε(i)正相关.因此,流形上的样本对应于
                                                                          −1
            (i)
                               (i)
                                                                   −1
         p(z =1|x)的高条件概率.当 z =1,隐藏层单元的条件概率可以表达为 N T (β (xW),β ).根据高斯分布置信区间的
         概念,从高斯分布中获得的样本以超过 99.74%的概率位于区间[μ−3σ,μ+3σ].因此在本文中,对于截断高斯分布,
         这个概率大于 99.74%,本节假设这个概率可以近似为 1.因此,样本以近似概率 p(z=1|x)被映射到区间[μ−3σ,
                   −1
                                                                             (j)
                             (j)
         μ+3σ],且μ=β xW.如果 x 不在流形附近,其相似性系数ε(j)会偏小,其对应的附加单元 z 更可能以 p(z=0|x)激活.
                                                                                         (j)
                                                                                     (j)
                                                −1
                                                                       (j)
         当 z=0,隐藏层单元的条件概率可以表示为 N T (0,β ).因此,基于公式(12),样本 x 在近似概率 p(z =0|x )下被映
                          −1
         射到高斯噪声 N T (0,β ).截断高斯分布的期望可以表示为
                             (| h >
                            Eh    0) =  0 ∫ +∞ h ( ( | , )/ (0))dp h x z S  h
                                       μ  +∞           −  σ  2  +∞ −  (h μ  −  )
                                               =  ph               p ( | , )dh x z h
                                             ( | , )dx z h +
                                      S (0)  0 ∫      S (0)  0 ∫  σ 2                        (14)
                                       +
                                               =  μσ 2 ( (ph =  0 | , )/ (0))x z S
                                       +
                                               =  μσ 2 ( (0)/ (0))f  S
                                      −1
                 −1
                                                                                           2
                                    2
         其中,μ=β (xWz),f(0)=p(h=0|z,x),σ =β .根据期望和协方差的关系可知,h 的协方差是 Var(h|h>0)=E(h |h>0)−
                2
                        2
         E(h|h>0) ,期望 E(h |h>0)可以表示为
                                          p h xz
                                                                  ( | ,)
                           Eh 2  | h >  0) =  0 ∫  +∞ h 2 ( | ,)  dh =  0 ∫  +∞  ( h x μ −  ) μ +  p h xz  dh
                            (
                                                                   (0)
                                                                  S
                                             (0)
                                            S
                                     −  σ  2  +∞ −  (x μ  −  )  μ  +∞
                                                    ( | , )dh +
                                               =  0 ∫  h  2  p hx z  0 ∫  hp hx z
                                                                     ( | , )dh
                                     S (0)    σ               S (0)                          (15)
                                                       x
                                               =  μ  2  σ +  2  μ  σ+  2 ( ph =  0 | , ) z
                                                   S (0)
                                               =  μ  2  σ +  2  μ  σ+  2 f  (0)
                                                S (0)
                               2
                                          2
                           2
                                                   2
             因此,Var(h|h>0)=σ −μσ (f(0)/S(0))−(σ (f(0)/S(0))) .                                 □
             基于命题 1,在 ARBM 中,如果样本位于流形附近,则更有可能映射到参数化概率,并且可以学习到流形特征
         保留在隐藏层中;反之,如果样本远离流形,则更有可能退化为隐藏层的高斯噪声.
             ARBM 可以用 CD 算法训练,似然函数关于参数的梯度可以表示为
                                                                 ( , ,)z h ⎤
                                                 ( , ,)z h ⎤
                                ∂  ln ( )p x  ⎡  ∂  Ex        ⎡  ∂  Ex
                                       =  E ph        ⎥  −  E ph       ⎥                     (16)
                                          (, , )z x ⎢
                                                           (, | )z x ⎢
                                  ∂  θ        ⎣  ∂  θ  ⎦      ⎣   ∂  θ  ⎦
             能量函数的梯度可以表示为
                                                                                       2
                    ( , , )/h z ∂
                                           ( , , )/h z ∂
                                                            ( , , )/h z ∂
                  ∂  Ex    w =  ij  −  2() ( * ) ,x  i  z h  j  ∂  Ex  c =  i  2() ,x ∂  i  Ex  α−  j  x 2 j , E∂  ( , , )/x h z ∂  β =  i  =  h .
                                                                                       i
             在 ARBM 中,为了计算截断高斯分布下的期望值,借鉴高斯图模型,本章采用文献[15,16]中的方法.ARBM
         还可以经过逐层堆叠构建深度置信网,本文将其称为基于附加单元的深度置信网(deep belief  net an  auxiliary
         units deep belief net,简称 ADBN).
         2.2   基于ARBM的深度生成模型
             ARBM 本身作为一种概率图模型,既可以用于判别任务,也可以用于生成任务.本文关注的重点是基于
         ARBM 的生成模型.由于 ARBM 本身是一种单隐藏层神经网络结构,其特征表达能力有限,因此我们需要根据
         ARBM 模型构建相应的深度神经网络结构.
             首先,我们构建了一个基于 ARBM 的深度置信网,该神经网络含有 2 个隐藏层,本文称其为基于附加单元的
   138   139   140   141   142   143   144   145   146   147   148