Page 142 - 《软件学报》2021年第12期
P. 142

3806                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         建模嵌入在数据中的流形结构,本节在可见层和隐藏层之间增加辅助单元,然后将图正则化项引入到能量函数
         中.基于二值辅助单元和图正则化项,流形上的数据有更高的概率被映射为参数化的截断高斯分布;同时,远离
         流形的数据更可能被映射为高斯噪声.ARBM 的结构如图 4 所示(其中,可见层单元和附加单元之间的连接值为
         权值 W,二值辅助单元和实值隐藏层单元之间是一一对应的关系).

                                           p(x|h)

                                      p(x|h=0)                 p(x|h=1)


                                           h = 0         h = 1     h


              Fig.3    A sketch map of Unweighted marginal distribution of the visible units in a Gaussian-binary RBM
                          图 3   Gaussian-binary RBM 中可见层单元未加权的边缘分布示意图

                                                 Hidden layer
                                                       ...
                                               h1  h2      h Nv

                                                 Auxiliary  units
                                               z1  z2  ...  z Nh




                                                    ...
                                            x1  x2      x2  xNv
                                                 Visible layer
                                         Fig.4    Structure of the ARBM
                                            图 4   ARBM 的结构图
             ARBM 的能量函数可以表示如下:
                                                T
                                                              T
                                       T
                                                                  T
                                                          T
                               E(x,z,h)=x diag(α)x+h diag(β)h−2c x−2ε z−2x W(h×z)             (8)
         其中,x 和 h 被截断在区间[0,+∞],diag(α)和 diag(β)是对角矩阵,c 是偏置,ε是当前样本与其所在 mini-batch 内其
         他样本之间的图相似性系数.图相似性系数可以使用高斯扩散核(Gaussian diffusion kernel)的形式计算:
                                            Σ(i,j)=σexp(−d(i,j))                              (9)
         其中,d(i,j)是欧氏距离;σ是用于平衡数量级的超参数;Σ是 N×N 的矩阵,且 ()iε               =  (1/ )N ∑  ∑  ( , )i j .基于公式(9),联
                                                                              j
         合概率和条件概率可以表示为
                                    (, , )z h =
                                   px      1  exp( E−  (, , )) (x z h I x≥  0) (I h≥  0)     (10)
                                           Z
                                                             T
                                                     T
                                                        T
                                    ( p z =  1| )x =  sigmoid ((x W β − 1 (x W  ) 2 )ε+      (11)
                                                       )
                                      i                   i
                                                        T
                                                           ),
                                        ph       N  (β −  1 (x Wz β −  1 )                   (12)
                                         (| , ) ~x z
                                           i      T  i       i
                                      px       N  (α  −  1 (c +  W  (h z×  )),α  −  1 )      (13)
                                       (| , ) ~h z
                                        i       T  i  i         i
         其中,I(⋅)是示性函数,N T 表示截断高斯分布,辅助单元用于控制隐藏层单元和可见层单元的激活概率.基于公式
         (12)和公式(13),可见层单元和隐藏层单元的条件概率可以表示为截断高斯分布,实值隐藏层单元可以为可见层
         单元的条件概率提供更灵活的期望.接下来,本文从理论上讨论流形学习和辅助单元的作用.
             命题 1.  在 ARBM 中,可见层单元和隐藏层单元都是条件独立的,为了方便表述,我们假设样本和特征都是
                                                                                           −1
                                                                                       −1
                                                                    −1
                                                            −1
         一维的.给定一个 mini-batch 的样本,截断高斯分布的期望是β (xWz)+β (f(0)/S(0)),协方差是β −β (xWz)
                   −2
                            2
         (f(0)/S(0))−β (f(0)/S(0)) ,其中,f(h)=p(h|z,x),S(h)=1−P(h|z,x).对于一个样本而言,当它靠近数据流形时,其对应的
   137   138   139   140   141   142   143   144   145   146   147