Page 20 - 《软件学报》2020年第11期
P. 20
3336 Journal of Software 软件学报 Vol.31, No.11, November 2020
综合考虑了现有方法的各种优点和不足,本文最终将目光放在一种被称为“模体”的网络子结构上.模体是
一种特殊的网络子图,在复杂网络研究中引起了广泛的关注.有研究 [27,28] 表明,在基因调控网中,模体所占的比
例远高于其他类型的子图,且模体与基因功能、网络演化都有着密切的关系.从模体的角度开展研究,既能适应
基因调控网的动态性,也能帮助我们寻找其与社会网络演化的相似特征.另一些社会网络的研究者通过迁移学
习进行链路预测 [29,30] .考虑到动态社会网络与基因调控网本质上的不同,动态基因调控网的网络演化研究应当
具有较强的针对性,迁移学习为这种特异性的网络演化模型的构建提供了借鉴.本文同时将迁移学习的思路应
用于带符号基因调控网的符号判别中,将动态基因调控网网络演化的研究扩展到有向带符号网络领域.
基于以上认识,本文提出一种两阶段动态基因调控网网络演化分析方法(dynamic gene regulatory network
evolution analyzing method,简称 DGNE):第 1 阶段将深入研究模体的转换规律,以模体演化的视角预测动态基因
调控网未来时刻的快照;第 2 阶段在一阶段的基础上采用基于隐空间特征的符号判别方法对快照中有向边的
符号进行判别.最后得到带符号基因调控网在未来时刻的网络快照,为本文提出的 DGNE 方法的正确性和有效
性提供校验.本文的工作和贡献可总结如下.
(1) 提出一种基于模体转换概率的动态基因调控网连边预测算法(link prediction algorithm based on motif
transfer probability,简称 MT),弥补了以往研究中只考虑静态网络未考虑动态网络的缺陷.该算法将基
因调控网网络演化的研究由静态网络扩展到动态网络范围,能够更加准确地把握网络演化模式,提高
网络连边预测的准确性.
(2) 在考虑动态基因调控网有向边符号信息的情况下,提出一种基于隐空间特征的符号判别算法,对有向
边进行符号判别.该算法弥补了以往研究只考虑无符号网络未考虑带符号网络的缺陷.将基因调控网
网络演化的研究扩展到带符号网络领域,使网络演化模型更贴近现实,有利于研究成果在生物医学和
药学中的应用.
(3) 本文首次从模体演化的视角考察了基因调控网的演化.模体作为重要的功能和结构单位,其演化对于
网络整体演化有着不可忽视的作用.对模体演化意义的挖掘,为本方法提供了良好的可解释性.从模
体的角度研究基因调控网,为今后生物信息学和生物医学的研究提供了一种新的观点.
本文第 1 节描述动态基因调控网的网络演化问题,包括相关概念的定义、背景知识的简要介绍,以及对所
研究问题的建模.第 2 节介绍 MT 算法和基于隐空间特征的符号判别算法.第 3 节在大量数据集上进行实验,包
括算法内相关模型的选取和参数检验,以及对本文提出的方法进行有效性验证和健壮性测试等.
1 问题描述
本节对动态基因调控网及网络演化的相关概念进行描述,包含了对基因调控网、模体、隐空间的定义和介
绍.然后对动态基因调控网网络演化问题进行形式化描述.
1.1 相关定义
定义 1(基因调控网). 基因调控网是由基因表达数据经过推断生成的、用来描述基因间调控关系的带符号
的有向图.其生成过程如图 1 所示.
1
5 2
4 3
时序基因 网络推断方法
表达数据 基因调控网快照
Fig.1 Diagram of inferring gene regulatory network from temporal gene expression data
图 1 从时序基因表达数据推断得到基因调控网方法示意图
基因表达数据是一个 l×m 的矩阵,表示 l 个基因在 m 个不同时刻上的表达强度高低.通过该矩阵,可以计算
基因间表达强度变化的相关性:若为正相关,即一个基因的表达强度的提高导致另一个基因表达强度提高,称这