Page 23 - 《软件学报》2020年第11期
P. 23
刘中舟 等:动态基因调控网演化分析 3339
的网络结构.DGNE 方法由两种算法构成,分别是基于模体转换概率的动态基因调控网连边预测算法 MT(link
prediction algorithm based on motif transfer probability)和基于隐空间特征向量的符号判别算法(将在第 2.2 节和
第 2.3 节详细描述):MT 算法将动态基因调控网进行模体演化分析,得出未来时刻基因调控网的快照;基于隐空
间特征的符号判别算法进一步为未来时刻的基因调控网的快照的边进行符号判别.
数据预处理 动态基因调控网网络演化分析方法
(DGNE)
② 基于模体转换概率的连边预测算法MT
模体转换统计 (输出无符号的未来时刻基因调控网快照)
①
基因调控网快照
③
② 基于隐空间特征的符号判别算法 ④ 未来时刻动态
隐空间映射
(输出有符号的未来时刻基因调控网快照) 基因调控网快照
Fig.5 Framework of DGNE
图 5 DGNE 框架
2.2 MT算法
由于受到不同生命周期的发展特征、生长环境以及各种内外部因素的影响,模体之间相互转换的概率随时
间变化是非线性关系,不同的模体在基因调控不同阶段转换到其他模体的概率是不同的,不能简单地采用线性
模型来估计未来时刻的模体转换概率.本节提出一种基于模体转换概率和张量分解的算法,即 MT 算法进行时
间序列预测.
本文将相邻两个快照间模体转换概率用一个 64×64 的矩阵来表示,称为模体转换概率矩阵,记作 TCM.矩阵
中元素的值 TCM t (i,j)=P(tri t [i]→tri t [j])表示从 t 时刻到 t+1 时刻编号为 i 的模体转换为编号为 j 的模体的概率,
其中,tri t [i]表示 t 时刻编号为 i 的模体.构建一个模体转移概率张量(TCT)来表示模体转换的时间序列,若一个动
态基因调控网中有 T 个快照,则 TCT=(TCM 1 ,TCM 2 ,…,TCM T−1 ),张量中的元素 TCT(i,j,T)=TCM T (i,j).通过
MATLAB 的 tensor toolbox [31] 工具箱中的 cp_nmu 函数对 TCT 张量进行非负 CP 分解,得到参数λ和 3 个因式矩
T
阵 A,B,C,其中,AB 表达了不同类型模体间的转换关系;而 C 则包含了该关系在时间维度上的信息,称为时间因
式矩阵.使用恰当的模型对时间因式矩阵 C 的前 T−1 行进行时间序列预测(见第 3.2.1 节),得到矩阵 C 的第 T 行
元素,从而预测得到 T 时刻~T+1 时刻的一种可能的模体转换概率矩阵,称为模体转换似然矩阵(TCLM),如公式
(1)所示.
R
TCLM ( , )i j = λ r A ( ,)i r B⋅ ∑ ( , )j r C⋅ ( ,)T r (1)
r= 1
将 TCLM 按行归一化,便得到了 T 到 T+1 时刻的模体转换概率矩阵 TCM T .获得了 TCM T ,便可以对 T+1 时刻
的链路状况进行预测.连边预测的目的就是给未来时刻的基因调控网快照的每一个节点对(u,v)赋予一个分数
score(u,v),该分数越高,意味着该节点对之间存在边的可能性越大.特别地,由于本文所研究的基因调控网是有
向网络,所以对一个节点对的两种可能的边的方向——即 score(u,v)和 score(v,u)分别赋分.从上述描述可知,所
有包含了 u 和 v 两节点的模体的转换都可以为下一时刻该节点对之间存在边的可能性产生影响,但显而易见的
是,不同模体的影响力不是一样的.越有影响力的模体,在连边预测中所占的比重越大.本文将模体的“影响力”定
义为两个方面:一是历史快照内该模体中的连边形成频率,二是历史快照内该模体形成闭合的频率.总的来说,
该模体越稠密,则说明其内部节点关系越紧密,在链路预测中发挥的作用相对于其他稀疏模体更重要.除此之
外,对节点对之间形成连边的概率还有一条假设,即某条历史连边产生的时刻距离待预测时刻越近,预测结果中
这条边仍然存在的可能性越高.