Page 24 - 《软件学报》2020年第11期
P. 24

3340                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                    由以上描述,本文对模体在链路预测中的影响力定义如公式(2)所示.
                                                  T −  1     T −  1
                                              W =  i  θ  1 Tt−  g (, )i t + ∑  θ  2 Tt−  f ( , ) 1i t + ∑  (2)
                                                  t=  1      t=  1
                    W i 是表示第 i 个模体的影响力的分值;g(i,t)表示 t 时刻第 i 个模体中各节点连边个数;f(i,t)表示 t 时刻第 i
                 个模体是否闭合,即 3 个节点两两之间是否至少存在一条有向边,闭合时为 1,不闭合为 0;θ 1 ,θ 2 是控制不同时期
                 的历史快照对 W i 贡献的系数,距当前时刻越近,贡献越大.
                    由此,根据 T 到 T+1 时刻的模体转换概率矩阵 TCM T 和模体的影响力 W,可以为每一对节点对赋予一个得
                 分,表示 T 时刻每个边存在的概率高低,如公式(3)所示.
                                                          |tri ( , )|u v
                                                 score (, )u v = ∑  W ⋅ T ( )m                        (3)
                                                                m
                                                           m= 1
                 其中,|tri(u,v)|表示 T−1 时刻包含节点对 u,v 的模体的总数,T(m)表示包含了边(u,v)的第 m 个模体从 T 时刻到 T+1
                 时刻的转移概率.具体算法如算法 1 所示.
                    算法 1. MT.
                    输入:时刻 1 到时刻 2,时刻 2 到时刻 3,…,时刻 T−2 到时刻 T-1 的模体转换概率矩阵 TCM 1 ,TCM 2 ,…,TCM T−1 ,
                 张量分解参数 K.
                    输出:时刻 T+1 的基因调控网快照.
                    1.  构造张量 TCT=(TCM 1 ,TCM 2 ,…,TCM T−1 )对张量 TCT 进行 CP 分解,获得系数λ和大小为(T−2)×K 的矩阵
                       A,B,C.
                    2.  根据公式(3)计算模体转换似然概率矩阵 TCLM.
                    3.  根据公式(4)计算模体重要性得分.
                    4.  据公式(5)得到分数矩阵 score.
                    5.  取 score 矩阵中分数最高的前 L 个元素对应的节点对作为预测的连边(L 表示每个快照中包含的边的平
                       均数量),得到时刻 T+1 的连边邻接矩阵.
                 2.3   基于隐空间特征的动态基因调控网符号判别算法
                    在第 2.2 节研究的基础上,将动态基因调控网分为源网络和目标网络,其中,前 T−1 时刻的所有快照集合为
                 源网络,作为该算法的训练集,记作 G s =(G 1 ,G 2 ,…,G T−1 );由 MT 算法得到 T 时刻的快照为目标网络,记作 G t =(G T ).
                 在已经获得关于未来时刻基因调控网已知存在的边的情况后,对已知存在的边的符号仍所知极少,因此本文借
                 鉴了迁移学习的思路,寻找源网络和目标网络拓扑结构上共有的特征空间                          [30] ,并通过机器学习的方法进行符号
                 判别.对于动态基因调控网来说,各快照都是同一网络在不同演化阶段的不同形态,因此各快照之间必定存在一
                 些内在的联系.本节通过寻找这种共有的特征空间,以提取其显式特征和隐空间特征,并构造一个高效的分类
                 器,在目标网络上对其边的符号进行判别.
                    与其他机器学习方法不同的是,在基因调控网编的符号判别中,没有任何“先验”的特征向量可以来对训练
                 集中一条边的符号来进行描述.因此,需要自己来根据源网络和目标网络的拓扑结构进行特征空间的构造.本文
                 构造的特征分为两类:(1)  显式特征,用以表达实例中显而易见的属性;(2)  隐空间特征,不能直接由网络拓扑结
                 构看出,但也表达了源网络和目标网络之间所共有的一些模式.
                 2.3.1    显式特征
                    对一个有向边(u,v),本文为其定义的显式特征包括节点的度数、中介中心性、模体个数以及共同邻居等.
                 这里需要注意的是,在为每一个样本定义这些特征的时候,完全不考虑这条边的符号,因为在目标网络中,对于
                 绝大部分边的符号都是未知的.各个特征的描述具体如下.
                    (1)  节点的度数.对一个有向边(u,v),通过 deg out (u)和 deg in (v)来分别指代节点 u 的出度和节点 v 的入度.节
                        点的度数代表着它与图中其他节点连接的紧密性.
                    (2)  中介中心性.对一个有向边(u,v),采用两端点的中介中心性 f bc (u)和 f bc (v)作为它的两个特征.中介中心
   19   20   21   22   23   24   25   26   27   28   29