Page 290 - 《软件学报》2021年第7期
P. 290

2208                                     Journal of Software  软件学报 Vol.32, No.7,  July 2021

                 等式右手边第 2 项表示的是该数据点的边缘概率似然的变分下界(evidence lower bound,简称 ELBO),可以通过
                                                          (| )x 来逼近真实的后验分布 (| ).pz x
                 不断优化增加该下界的值,以不断用近似后验分布 qz
                                                         
                    式(3)可以通过重写负对数似然为下式:
                                     E  ˆ () x  [ log ( )]px    VAE ( ;x  ) E   p ˆ () x  [D KL (q  ( | ) || ( | ))]z x  p z x  (4)
                                       p
                 其中,
                                   VAE ( ; )x    E p ˆ () x  [E q  ( | ) x  [ logqx    ( | )]] Ez    ˆ ( ) x  [D KL ( ( | ) || ( )])q z x  p z  (5)
                                                                          
                                                  z
                                                                   p
                                      N
                                   1
                    并且, E   [ ( )]xf     f  ()x 函数 f(x)的期望.图 3 展示了该框架的主要思想,我们通过最小化式(5)中边缘
                          ˆ ()
                          px
                                   N  i 1
                 负对数似然    VAE (; )x  即可使我们估计的后验分布 (| )pz x 不断逼近真实后验分布 (| ).pz x





                                                Fig.3   Variational autoencoder
                                                    图 3   变分自编码器
                    在式(5)中,等式右边的第 1 项表示经生成模型解码后数据与原始数据的差异,即重构误差,第 2 项表示模型
                 所学的后验概率分布 (| )pz x 与对隐式特征空间假设的先验分布 p(z)的差别.由此可见,变分自编码器所学的隐
                 变量所服从的分布高度依赖于假设的先验分布.
                                                                                      (| )x 中进行采样,然后
                    在实际学习变分自编码器模型的过程中,隐式变量 z 会从推断模型中得到的分布 qz
                                                                                     
                 再将采样后的 z 输入至生成模型中进行解码,通过这个步骤,变分自编码器可以将隐式特征从单一重构损失最
                 小所对应的概率最大值点转化为能以较高概率重构原始数据的某个概率分布,有效地提升了所学到的隐式特
                 征的鲁棒性和抗噪声能力,也可以从一定程度上将源项目和目标项目的数据分布映射到同一个流形结构上去.
                 2.2   最大均值差异

                    在异构缺陷预测的研究问题中,虽然源项目与目标项目被映射到同一特征维度,但是由于两者特征的固有
                 差异很大,无法保证学习到的隐式特征具有相同的语义,共享相似的分布.因此我们引入最大均值差异损失对源
                 项目和目标项目隐式特征空间的后验分布进行约束,最大均值差异是通过计算两个分布的均值距离来度量两
                 个分布的差异,如图 4 所示,通过最小化最大均值差异可以使两者的分布映射到同一空间之中.













                                   Fig.4    Learning distribution based on maximum mean discrepancy
                                               图 4   利用最大均值差异学习分布
                    假设 :kX   X 是连续的,有界的半正定核,并且 H 是相应的再生希伯特核空间,并引入特征映射                          : X   H ,
                 那么分布 p(x)和 p(y)之间的最大均值差异(MMD)为
   285   286   287   288   289   290   291   292   293   294   295