Page 100 - 《软件学报》2021年第10期
P. 100

3072                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                                                          x 1 ,   [ ]zt   D 1 [ , , ]n T i
                                                              i
                                                                   c
                                                           x i 2 , [ ] D n T i
                                                                   2
                                                             zt 
                                                                    [ , , ]
                                             xt   i []  ( [ ]) t   z i    i  i  c                 (3)
                                                          ...
                                                           i r  zt   i r
                                                                    [ , , ]
                                                          x i  , [ ] D n T i
                                                                   c
                                                              i
                 其中, D 1 c [, , ]n T i   D c 2 [, , ]n Ti   ...  D c i r  [ , , ]n Ti   D c [ , , ],n Ti D h c  [ , , ]n T i   D c k [, , ]n T i   ,  其中,1≤h,k≤r i ,hk.
                    一种模式离散化方法可能包含许多具体的离散化方案,下面给出转折性离散化中的 3 个方案.
                                               x 1 ,  z  []t ≥  z  []t 且  z  []t ≤  z  [ ]t
                                                i 2  i  1  i  2  i  i  1
                                  xt 
                       四值离散化: []      ( [ ]) t   z i   x i  , [] t ≤ z i   1  z i  2 [] t 且  z i [] t ≥  z i  1 [] t  ;
                                   i
                                               x 3 i  , [] t ≤  z i   1  z i  2 [] t 且  z i [] t ≤  z i  1 [] t
                                               x 4 i  , [] t ≥ z i   1  z i  2 [] t 且  z i [] t ≥  z i  1 [ ] t
                                               x 1 i  ,  z i  1 []t ≥  z i  2 []t 且  z i []t ≤  z i  1 [ ]t
                                                                      t
                       三值离散化: [] t   x i   ( [ ]) t   z i   x 2 i  , [] t ≤ z i   1  z i  2 [] t 且  z i [] t ≥  z i  1 [] ;
                                                3
                                               x i  , 其他情况
                                               x 1 ,  z i   []t ≥  z  []t 且  z  []t ≤  z  []t 或  z  []t ≤  z  []t 且  z  []t ≥  z  []t
                       二值离散化: []xt   i   ( [ ])z t   i    i 2  1  i  2  i  i  1  i  1  i  2  i  i  1  .
                                                x i  , 其他情况
                    (3)  初始化数据的迭代修复
                    最大似然树具有确定的建树算法,而且在效率(其参数最多只是一阶条件概率)、可靠性(最大似然树是与贝
                 叶斯网络具有最好拟合的树形结构             [22] ,往往构成贝叶斯网络结构的主体骨架,所确定的联合概率分布也是产生
                 数据的联合概率分布的良好近似)和鲁棒性(建立最大似然树只使用互信息由大到小排序后的顺序信息,而顺序
                 信息是比较稳定的信息)等方面均有优势.我们将最大似然树和 Gibbs 抽样相结合,对初始化后的丢失数据进行
                 迭代修复,直到满足终止条件结束迭代.最大似然树的建树过程如下                       [22] .
                    ①   把变量之间的互信息作为边的权重,计算所有边的权重,并按权重由大到小排序边.
                    ②   按照不产生环路的原则,根据边权重的大小,由大到小依次选择边来建树,直到选择 n1 条边为止,得到
                 最大似然树 Tree.
                    选择一个节点作为根节点,由根节点向外的方向为边定向,定向的目的是便于分解联合概率,这种方向不具
                 有因果含义.
                    根据概率公式可得:
                                                        ([ ], [ ],..., [ ])t x t
                                                       px          x t        n
                        ( [ ]| [ ],...,t x t
                       px i  1    x i  1 [ ],t x i  1 [ ],..., [ ])t  x t   n  1  2  n        p ( [ ]| ( [ ]),x t   i  x t  Tree )  (4)
                                                                                        i
                                                    p ( [ ],...,x t  x i  1 [ ],t x i  1 [ ],..., [ ])t  x t  i 1
                                                      1
                                                                       n
                 其中,是与 x i [t]无关的量,(x i [t])是最大似然树中 X i [t]的父节点(X i [t])的取值.对公式(4)进行归一化处理,记:
                                                       n
                                                         ( px k i  | ( [ ]),x t  i  Tree )
                                                 ()k   i 1 n         .
                                                      i r
                                                         ( px i h  | ( [ ]),x t  i  Tree )
                                                     h 1 i 1
                    对生成的随机数,变量 X i [t]丢失数据的修正值为
                                                     x 1 ,  0   ≤   (1)
                                                      i
                                                     ...
                                                       k  1      k
                                                     x i k ,      () j     ≤     () j
                                               xt                                                     (5)
                                               ˆ []  
                                                i       j  1     j  1
                                                    
                                                     ...
                                                          i r  1
                                                     x i i r  ,       ( ) j
                                                         j 1
   95   96   97   98   99   100   101   102   103   104   105