Page 19 - 《软件学报》2020年第11期
P. 19
刘中舟 等:动态基因调控网演化分析 3335
在生物体内,基因通过调控相互作用实现它们的生物学功能,并完成复杂的生命活动.基因之间的调控关系
可分为两类:激励与抑制.当一个基因的表达增强致使另一个基因的表达增强时,称前者对后者存在激励关系;
反之,当一个基因的表达增强致使另一个基因的表达减弱时,称为抑制关系.将这种调控关系以图的形式呈现,
就是基因调控网.在基因调控网中,将每个基因视作一个节点,具有调控关系的两节点间存在有向边,由调控基
因指向被调控基因.有向边的符号代表了调控关系的类型.将基因调控网在某个时刻的采样称作基因调控网在
该时刻的快照.将若干个在时间上具有先后关系,能够反映基因调控网在一段时间内的动态演化过程的快照集
合称作动态基因调控网.动态基因调控网的网络演化,就是有向边随时间变化而形成、消亡或转变方向的过程.
对动态基因调控网网络演化的研究有许多重要意义,例如,可以对未来的基因调控关系进行预测,从而预测并探
明癌症等疾病的发病机制;为疾病的诊断和治疗提供依据;并在基因靶向药物的开发和测试领域进行仿真实验.
当前,对动态基因调控网的研究包括两个方面:其一是研究如何根据某时刻的基因表达数据推断该时刻的基因
调控网快照 [1−4] ;其二是研究在已知基因调控网的部分拓扑结构信息的情况下,如何准确预测基因调控网未知
部分或未来时刻的连边 [5,6] .对于前者,近年来已经有许多较为成熟的工具和方法出现,如 TRACE [7,8] 、GENIE3 [3]
等,借助这些工具和方法,可以准确地将输入的基因表达数据映射为基因调控网.但是在获得了动态基因调控网
后,还无法应用于实际工作.只有进一步研究其网络演化机制,才能准确地预测基因调控网未来的连边,从而应
用于医学和药学研究等领域.
当前,对基因调控网网络演化的研究仍有一些不足:(1) 大部分的研究对象是静态无符号网络 [9,10] ,但基因
调控网的演化模式并非一成不变.研究带符号的动态基因调控网的网络演化有更为重要的意义;(2) 学术界对
基因调控网的演化规律和机制虽有一些猜想 [11−14] ,但目前尚未有公认的、合理的解释,人们对于基因调控网的
网络演化的认知仍然存在一些不足.针对上述缺陷,考虑到基因调控网与社会网络在拓扑结构特征上有一定的
相似性 [15] ,本文试图借鉴较为成熟的社会网络研究技术对动态基因调控网网络演化展开研究,以揭示动态基因
调控网网络演化的秘密.
在社会网络研究中,有许多关于网络演化和链路预测的方法被提出.传统的链路预测方法主要分为 3 类:基
于相似性的链路预测、基于最大似然估计的链路预测与概率模型方法.
• 基于相似性的链路预测方法衡量两个节点之间的相似性,并据此估算两节点之间产生连边的可能性.
基于节点相似性的链路预测算法包括共同邻居算法(CN) [16] 、AA 算法 [17] 、RA [18] 等.类似地,还有基于
路径的相似性算法,如 LP [19] 、Katz [20] 等,它们相对于之前的算法考虑了二阶乃至更高阶的间接共同邻
居.有最新的研究 [21] 考虑到节点的差异性,将上述多种相似性指标综合地应用于链路预测,在实验中取
得了更好的表现.
• 第 2 类是基于最大似然估计的链路预测方法.通过似然估计值和马尔可夫-蒙特卡洛算法,可以得到两
节点之间产生连边的概率,最大似然估计方法在面对有明显层次结构的复杂网络时有较好的效果.
• 概率模型方法的基本思想是建立一个具有多参数的概率模型,通过调节参数,使模型能够再现该网络
的真实连边关系.基于这类思想的经典算法有马尔可夫网络模型(RMN)、朴素贝叶斯 [22] 等.
以上的传统链路预测方法都是根据网络的某些局部或全局的某些拓扑结构特征来进行预测.如果某种网
络的某项特征比较突出,则可能有较好的预测效果.
基因调控网与社会网络具有某些相似的拓扑结构特征,如它们都呈现出了无标度网络和小世界网络的特
性.这些相似的特征表明将社会网络研究方法应用于基因调控网在一定程度上是可行的.但上述的传统方法的
研究对象局限于静态网络,无法将其直接应用于本文所研究的动态基因调控网.一些较新的方法弥补了这个缺
陷,如 Li 等人提出的基于深度学习的动态社会网络链路预测模型 ctRBM [23] ,它考虑了节点自身的历史连接情况
和邻居节点对其连边产生的影响;Zhu 等人使用基于隐空间的时序链路预测方法 [24] 将所有节点映射到一个高
维空间中,并认为距离较近的节点更有可能产生边.有研究 [25,26] 表明,链路预测可以反映网络演化机制,两者在
分析网络演化上具有内在的一致性.这些方法将基于相似性的链路预测方法扩展到了动态社会网络上,在网络
演化分析上取得了良好的效果.