Page 100 - 《软件学报》2021年第10期
P. 100
3072 Journal of Software 软件学报 Vol.32, No.10, October 2021
x 1 , [ ]zt D 1 [ , , ]n T i
i
c
x i 2 , [ ] D n T i
2
zt
[ , , ]
xt i [] ( [ ]) t z i i i c (3)
...
i r zt i r
[ , , ]
x i , [ ] D n T i
c
i
其中, D 1 c [, , ]n T i D c 2 [, , ]n Ti ... D c i r [ , , ]n Ti D c [ , , ],n Ti D h c [ , , ]n T i D c k [, , ]n T i , 其中,1≤h,k≤r i ,hk.
一种模式离散化方法可能包含许多具体的离散化方案,下面给出转折性离散化中的 3 个方案.
x 1 , z []t ≥ z []t 且 z []t ≤ z [ ]t
i 2 i 1 i 2 i i 1
xt
四值离散化: [] ( [ ]) t z i x i , [] t ≤ z i 1 z i 2 [] t 且 z i [] t ≥ z i 1 [] t ;
i
x 3 i , [] t ≤ z i 1 z i 2 [] t 且 z i [] t ≤ z i 1 [] t
x 4 i , [] t ≥ z i 1 z i 2 [] t 且 z i [] t ≥ z i 1 [ ] t
x 1 i , z i 1 []t ≥ z i 2 []t 且 z i []t ≤ z i 1 [ ]t
t
三值离散化: [] t x i ( [ ]) t z i x 2 i , [] t ≤ z i 1 z i 2 [] t 且 z i [] t ≥ z i 1 [] ;
3
x i , 其他情况
x 1 , z i []t ≥ z []t 且 z []t ≤ z []t 或 z []t ≤ z []t 且 z []t ≥ z []t
二值离散化: []xt i ( [ ])z t i i 2 1 i 2 i i 1 i 1 i 2 i i 1 .
x i , 其他情况
(3) 初始化数据的迭代修复
最大似然树具有确定的建树算法,而且在效率(其参数最多只是一阶条件概率)、可靠性(最大似然树是与贝
叶斯网络具有最好拟合的树形结构 [22] ,往往构成贝叶斯网络结构的主体骨架,所确定的联合概率分布也是产生
数据的联合概率分布的良好近似)和鲁棒性(建立最大似然树只使用互信息由大到小排序后的顺序信息,而顺序
信息是比较稳定的信息)等方面均有优势.我们将最大似然树和 Gibbs 抽样相结合,对初始化后的丢失数据进行
迭代修复,直到满足终止条件结束迭代.最大似然树的建树过程如下 [22] .
① 把变量之间的互信息作为边的权重,计算所有边的权重,并按权重由大到小排序边.
② 按照不产生环路的原则,根据边权重的大小,由大到小依次选择边来建树,直到选择 n1 条边为止,得到
最大似然树 Tree.
选择一个节点作为根节点,由根节点向外的方向为边定向,定向的目的是便于分解联合概率,这种方向不具
有因果含义.
根据概率公式可得:
([ ], [ ],..., [ ])t x t
px x t n
( [ ]| [ ],...,t x t
px i 1 x i 1 [ ],t x i 1 [ ],..., [ ])t x t n 1 2 n p ( [ ]| ( [ ]),x t i x t Tree ) (4)
i
p ( [ ],...,x t x i 1 [ ],t x i 1 [ ],..., [ ])t x t i 1
1
n
其中,是与 x i [t]无关的量,(x i [t])是最大似然树中 X i [t]的父节点(X i [t])的取值.对公式(4)进行归一化处理,记:
n
( px k i | ( [ ]),x t i Tree )
()k i 1 n .
i r
( px i h | ( [ ]),x t i Tree )
h 1 i 1
对生成的随机数,变量 X i [t]丢失数据的修正值为
x 1 , 0 ≤ (1)
i
...
k 1 k
x i k , () j ≤ () j
xt (5)
ˆ []
i j 1 j 1
...
i r 1
x i i r , ( ) j
j 1