Page 27 - 《软件学报》2020年第11期
P. 27
刘中舟 等:动态基因调控网演化分析 3343
实意义.
(3) 小鼠烟雾暴露基因调控网数据(以下记作 Rat).原始基因表达数据来自 Stevenson 等人的研究 [37] .为研
究长期处于吸烟环境对机体的影响,原作者将小鼠完全暴露于吸烟环境中,并每隔一段时间采集小鼠
的基因表达数据.该数据集包括跨度 238 天、共 12 次采样的基因表达数据,采集时间间隔不固定,为 2
天~70 天.在对原始数据进行 log2 归一化后,本文使用 DeltaNet 程序 [38] 将原始数据中的 12 个时间点
的基因表达数据分别作为输入,得到对应的 12 个基因调控网网络快照.该数据集展示了较高等的哺
乳动物在人为干预的非自然状态下的基因调控网的网络演化过程,与 Dro 数据集形成对照.
上述实验数据集的网络拓扑信息见表 1.其中,Dro 数据集是无符号基因调控网,网络数据中不包含激励边
和抑制边信息.与其他类型的复杂网络相比,基因调控网非常稀疏.对比几个基因调控网的网络拓扑结构,可以
发现它们具有一定的共性.例如,节点和边的数量大约在 1:1.5~1:3 左右、相对其他类型的复杂网络非常稀疏.
此外,由于基因调控网中每个节点对应着一个实际存在的基因,因此这类网络规模较为有限,局限在几百或几千
个节点之内.从带符号基因调控网激励边和抑制边分布上看,两种类型的有向边各占一半,这有利于保证在符号
判别过程中学习样本数量的平衡性.
Table 1 Network topology information of the datasets
表 1 各数据集网络拓扑结构信息表
快照数 节点数 平均边数 激励边比例(%)
SynA 30 300 712.0 44.4
SynB 20 600 1 040.0 47.6
SynC 20 900 1 451.6 51.6
Rat 12 3 525 7 609.6 56.1
Dro 66 588 1 889.3 不适用
3.2 模型的选取及参数检验
3.2.1 时间因式矩阵预测模型和参数选取
在 MT 算法里,要获得准确的从 T−1 时刻到 T 时刻模体转换似然矩阵,就要使用合适的模型和参数对时间
因式矩阵 C 进行时序分析.由 T−1 个模体转换概率矩阵组成的张量 TCT,其因式分解后得到的时间因式矩阵
C∈R (T−1)×k ,其每行分别存储着 TCT 在时间维度上的隐含信息.时序分析的本质就是选取合适的分布模型,根据不
同快照距离待预测网络时间的远近,为每一行其分配合适的权重,得到 C(T).根据常识,距离待预测网络越近的
快照,其对于链路预测的作用就越大,应该被赋予更高的权重.其网络节点的度分布都大致遵循指数分布或类似
分布.公式(11)和公式(12)分别为在两种分布模型下 C(T)的计算方式:
T − 1
(, )r =
a
CT (T − ∑ ) t C ( , )t r (11)
t= 1
T − 1
(, )r = ∑
CT a Tt − C ( , )t r (12)
t= 1
其中,a 是未知参数.本文在 synA,synC 数据集上分别对两种模型和其参数进行检验,寻求可以取得最佳效果的
模型和参数,其结果如图 6 所示.
当 ROC 曲线越向左上角凸出时,表明在该参数的取值下连边预测算法具有更好的预测效果.从图 6 的实验
结果可以得到如下结论.
(1) 当采用幂律分布时,α取值为−4 或−5 时效果最佳;当采用指数分布模型时,α取值为 0.2 时可以取得最
好的结果.而且无论是哪种取值,其 ROC 曲线大致相仿,考虑到两种分布模型计算复杂度相似,所以可
任选其中一种作为后续实验中该算法的参数.
(2) 在 SynA 数据集中无论取那种参数和模型,ROC 曲线的形状差别非常小.SynA 数据集中网络规模只有
300 个节点,这说明 MT 算法在小规模网络上参数不敏感,在一定程度上不适用于这类网络.
MT 算法参数检验为探究 MT 算法中张量分解的维度 K 对算法的表现是否具有影响,本文在 SynA、SynB、