Page 27 - 《软件学报》2020年第11期
P. 27

刘中舟  等:动态基因调控网演化分析                                                              3343


                        实意义.
                    (3)  小鼠烟雾暴露基因调控网数据(以下记作 Rat).原始基因表达数据来自 Stevenson 等人的研究                       [37] .为研
                        究长期处于吸烟环境对机体的影响,原作者将小鼠完全暴露于吸烟环境中,并每隔一段时间采集小鼠
                        的基因表达数据.该数据集包括跨度 238 天、共 12 次采样的基因表达数据,采集时间间隔不固定,为 2
                        天~70 天.在对原始数据进行 log2 归一化后,本文使用 DeltaNet 程序            [38] 将原始数据中的 12 个时间点
                        的基因表达数据分别作为输入,得到对应的 12 个基因调控网网络快照.该数据集展示了较高等的哺
                        乳动物在人为干预的非自然状态下的基因调控网的网络演化过程,与 Dro 数据集形成对照.
                    上述实验数据集的网络拓扑信息见表 1.其中,Dro 数据集是无符号基因调控网,网络数据中不包含激励边
                 和抑制边信息.与其他类型的复杂网络相比,基因调控网非常稀疏.对比几个基因调控网的网络拓扑结构,可以
                 发现它们具有一定的共性.例如,节点和边的数量大约在 1:1.5~1:3 左右、相对其他类型的复杂网络非常稀疏.
                 此外,由于基因调控网中每个节点对应着一个实际存在的基因,因此这类网络规模较为有限,局限在几百或几千
                 个节点之内.从带符号基因调控网激励边和抑制边分布上看,两种类型的有向边各占一半,这有利于保证在符号
                 判别过程中学习样本数量的平衡性.
                                       Table 1    Network topology information of the datasets
                                              表 1   各数据集网络拓扑结构信息表
                                              快照数     节点数      平均边数      激励边比例(%)
                                      SynA     30      300      712.0       44.4
                                      SynB     20      600     1 040.0      47.6
                                      SynC     20      900     1 451.6      51.6
                                       Rat     12      3 525   7 609.6      56.1
                                       Dro     66      588     1 889.3     不适用

                 3.2   模型的选取及参数检验
                 3.2.1    时间因式矩阵预测模型和参数选取
                    在 MT 算法里,要获得准确的从 T−1 时刻到 T 时刻模体转换似然矩阵,就要使用合适的模型和参数对时间
                 因式矩阵 C 进行时序分析.由 T−1 个模体转换概率矩阵组成的张量 TCT,其因式分解后得到的时间因式矩阵
                 C∈R (T−1)×k ,其每行分别存储着 TCT 在时间维度上的隐含信息.时序分析的本质就是选取合适的分布模型,根据不
                 同快照距离待预测网络时间的远近,为每一行其分配合适的权重,得到 C(T).根据常识,距离待预测网络越近的
                 快照,其对于链路预测的作用就越大,应该被赋予更高的权重.其网络节点的度分布都大致遵循指数分布或类似
                 分布.公式(11)和公式(12)分别为在两种分布模型下 C(T)的计算方式:
                                                        T − 1
                                                   (, )r =
                                                               a
                                                  CT       (T − ∑  ) t C ( , )t r                    (11)
                                                         t= 1
                                                          T − 1
                                                    (, )r = ∑
                                                   CT       a Tt −  C ( , )t r                       (12)
                                                          t= 1
                 其中,a 是未知参数.本文在 synA,synC 数据集上分别对两种模型和其参数进行检验,寻求可以取得最佳效果的
                 模型和参数,其结果如图 6 所示.
                    当 ROC 曲线越向左上角凸出时,表明在该参数的取值下连边预测算法具有更好的预测效果.从图 6 的实验
                 结果可以得到如下结论.
                    (1)  当采用幂律分布时,α取值为−4 或−5 时效果最佳;当采用指数分布模型时,α取值为 0.2 时可以取得最
                        好的结果.而且无论是哪种取值,其 ROC 曲线大致相仿,考虑到两种分布模型计算复杂度相似,所以可
                        任选其中一种作为后续实验中该算法的参数.
                    (2)  在 SynA 数据集中无论取那种参数和模型,ROC 曲线的形状差别非常小.SynA 数据集中网络规模只有
                        300 个节点,这说明 MT 算法在小规模网络上参数不敏感,在一定程度上不适用于这类网络.
                    MT 算法参数检验为探究 MT 算法中张量分解的维度 K 对算法的表现是否具有影响,本文在 SynA、SynB、
   22   23   24   25   26   27   28   29   30   31   32