Page 142 - 《软件学报》2021年第12期
P. 142
3806 Journal of Software 软件学报 Vol.32, No.12, December 2021
建模嵌入在数据中的流形结构,本节在可见层和隐藏层之间增加辅助单元,然后将图正则化项引入到能量函数
中.基于二值辅助单元和图正则化项,流形上的数据有更高的概率被映射为参数化的截断高斯分布;同时,远离
流形的数据更可能被映射为高斯噪声.ARBM 的结构如图 4 所示(其中,可见层单元和附加单元之间的连接值为
权值 W,二值辅助单元和实值隐藏层单元之间是一一对应的关系).
p(x|h)
p(x|h=0) p(x|h=1)
h = 0 h = 1 h
Fig.3 A sketch map of Unweighted marginal distribution of the visible units in a Gaussian-binary RBM
图 3 Gaussian-binary RBM 中可见层单元未加权的边缘分布示意图
Hidden layer
...
h1 h2 h Nv
Auxiliary units
z1 z2 ... z Nh
...
x1 x2 x2 xNv
Visible layer
Fig.4 Structure of the ARBM
图 4 ARBM 的结构图
ARBM 的能量函数可以表示如下:
T
T
T
T
T
E(x,z,h)=x diag(α)x+h diag(β)h−2c x−2ε z−2x W(h×z) (8)
其中,x 和 h 被截断在区间[0,+∞],diag(α)和 diag(β)是对角矩阵,c 是偏置,ε是当前样本与其所在 mini-batch 内其
他样本之间的图相似性系数.图相似性系数可以使用高斯扩散核(Gaussian diffusion kernel)的形式计算:
Σ(i,j)=σexp(−d(i,j)) (9)
其中,d(i,j)是欧氏距离;σ是用于平衡数量级的超参数;Σ是 N×N 的矩阵,且 ()iε = (1/ )N ∑ ∑ ( , )i j .基于公式(9),联
j
合概率和条件概率可以表示为
(, , )z h =
px 1 exp( E− (, , )) (x z h I x≥ 0) (I h≥ 0) (10)
Z
T
T
T
( p z = 1| )x = sigmoid ((x W β − 1 (x W ) 2 )ε+ (11)
)
i i
T
),
ph N (β − 1 (x Wz β − 1 ) (12)
(| , ) ~x z
i T i i
px N (α − 1 (c + W (h z× )),α − 1 ) (13)
(| , ) ~h z
i T i i i
其中,I(⋅)是示性函数,N T 表示截断高斯分布,辅助单元用于控制隐藏层单元和可见层单元的激活概率.基于公式
(12)和公式(13),可见层单元和隐藏层单元的条件概率可以表示为截断高斯分布,实值隐藏层单元可以为可见层
单元的条件概率提供更灵活的期望.接下来,本文从理论上讨论流形学习和辅助单元的作用.
命题 1. 在 ARBM 中,可见层单元和隐藏层单元都是条件独立的,为了方便表述,我们假设样本和特征都是
−1
−1
−1
−1
一维的.给定一个 mini-batch 的样本,截断高斯分布的期望是β (xWz)+β (f(0)/S(0)),协方差是β −β (xWz)
−2
2
(f(0)/S(0))−β (f(0)/S(0)) ,其中,f(h)=p(h|z,x),S(h)=1−P(h|z,x).对于一个样本而言,当它靠近数据流形时,其对应的