Page 143 - 《软件学报》2021年第12期
P. 143
张健 等:基于实值 RBM 的深度生成网络研究 3807
−1
隐式表达具有更高的概率密度,并且该样本以近似为 p(z=1|x)的概率被映射到以β vW 为中心、 3 β − 1 为邻域
−1
的区间内;反之,当样本点远离流形时,它以 p(z=0|x)的近似概率被映射为高斯噪声 N(0,β ).
(i)
证明:假设一个 mini-batch 包含 N 个样本,基于公式(9),如果样本 x 位于流形附近,其相似性系数ε(i)则会相
(i)
(i)
(i)
对较高.与 x 对应的附加单元 z 以概率 p(z =1|x)激活,与相似性系数ε(i)正相关.因此,流形上的样本对应于
−1
(i)
(i)
−1
p(z =1|x)的高条件概率.当 z =1,隐藏层单元的条件概率可以表达为 N T (β (xW),β ).根据高斯分布置信区间的
概念,从高斯分布中获得的样本以超过 99.74%的概率位于区间[μ−3σ,μ+3σ].因此在本文中,对于截断高斯分布,
这个概率大于 99.74%,本节假设这个概率可以近似为 1.因此,样本以近似概率 p(z=1|x)被映射到区间[μ−3σ,
−1
(j)
(j)
μ+3σ],且μ=β xW.如果 x 不在流形附近,其相似性系数ε(j)会偏小,其对应的附加单元 z 更可能以 p(z=0|x)激活.
(j)
(j)
−1
(j)
当 z=0,隐藏层单元的条件概率可以表示为 N T (0,β ).因此,基于公式(12),样本 x 在近似概率 p(z =0|x )下被映
−1
射到高斯噪声 N T (0,β ).截断高斯分布的期望可以表示为
(| h >
Eh 0) = 0 ∫ +∞ h ( ( | , )/ (0))dp h x z S h
μ +∞ − σ 2 +∞ − (h μ − )
= ph p ( | , )dh x z h
( | , )dx z h +
S (0) 0 ∫ S (0) 0 ∫ σ 2 (14)
+
= μσ 2 ( (ph = 0 | , )/ (0))x z S
+
= μσ 2 ( (0)/ (0))f S
−1
−1
2
2
其中,μ=β (xWz),f(0)=p(h=0|z,x),σ =β .根据期望和协方差的关系可知,h 的协方差是 Var(h|h>0)=E(h |h>0)−
2
2
E(h|h>0) ,期望 E(h |h>0)可以表示为
p h xz
( | ,)
Eh 2 | h > 0) = 0 ∫ +∞ h 2 ( | ,) dh = 0 ∫ +∞ ( h x μ − ) μ + p h xz dh
(
(0)
S
(0)
S
− σ 2 +∞ − (x μ − ) μ +∞
( | , )dh +
= 0 ∫ h 2 p hx z 0 ∫ hp hx z
( | , )dh
S (0) σ S (0) (15)
x
= μ 2 σ + 2 μ σ+ 2 ( ph = 0 | , ) z
S (0)
= μ 2 σ + 2 μ σ+ 2 f (0)
S (0)
2
2
2
2
因此,Var(h|h>0)=σ −μσ (f(0)/S(0))−(σ (f(0)/S(0))) . □
基于命题 1,在 ARBM 中,如果样本位于流形附近,则更有可能映射到参数化概率,并且可以学习到流形特征
保留在隐藏层中;反之,如果样本远离流形,则更有可能退化为隐藏层的高斯噪声.
ARBM 可以用 CD 算法训练,似然函数关于参数的梯度可以表示为
( , ,)z h ⎤
( , ,)z h ⎤
∂ ln ( )p x ⎡ ∂ Ex ⎡ ∂ Ex
= E ph ⎥ − E ph ⎥ (16)
(, , )z x ⎢
(, | )z x ⎢
∂ θ ⎣ ∂ θ ⎦ ⎣ ∂ θ ⎦
能量函数的梯度可以表示为
2
( , , )/h z ∂
( , , )/h z ∂
( , , )/h z ∂
∂ Ex w = ij − 2() ( * ) ,x i z h j ∂ Ex c = i 2() ,x ∂ i Ex α− j x 2 j , E∂ ( , , )/x h z ∂ β = i = h .
i
在 ARBM 中,为了计算截断高斯分布下的期望值,借鉴高斯图模型,本章采用文献[15,16]中的方法.ARBM
还可以经过逐层堆叠构建深度置信网,本文将其称为基于附加单元的深度置信网(deep belief net an auxiliary
units deep belief net,简称 ADBN).
2.2 基于ARBM的深度生成模型
ARBM 本身作为一种概率图模型,既可以用于判别任务,也可以用于生成任务.本文关注的重点是基于
ARBM 的生成模型.由于 ARBM 本身是一种单隐藏层神经网络结构,其特征表达能力有限,因此我们需要根据
ARBM 模型构建相应的深度神经网络结构.
首先,我们构建了一个基于 ARBM 的深度置信网,该神经网络含有 2 个隐藏层,本文称其为基于附加单元的