Page 402 - 《软件学报》2025年第4期
P. 402

1808                                                       软件学报  2025  年第  36  卷第  4  期


                 同, 这主要是因为所提算法的内存消耗与分支数量无关, 仅与二部图数据的大小成线性关系. 此外所提算法的内存
                 消耗与二部图的存储大小仅相差数倍, 这是因为算法使用了额外的索引以判断顶点之间的邻居关系. 该实验表明
                 所提算法具有很高的空间效率.

                                           10 4   Graph size  MDCE
                                                  iMDCE
                                                            Basic
                                          内存 (M)  10 3 2
                                           10
                                           10 1
                                                Youtube ActMovies Wiki-Cat  IMDB  Twitter  DBLP
                                                      图 7 内存消耗

                    实验  5: 案例研究. 此外, 本文还进一步展开了一项案例研究以分析所提出的极大                      k-缺陷二团在社区挖掘方面
                 的效果. 本实验利用      DBLP  上的数据信息    (https://dblp.uni-trier.de/xml) 构建二部图数据, 其中顶点分别表示作者和
                 文章, 作者与文章之间的关系则表示为边. 本实验基于不同二部图稠密子图社区模型检测了包含“研究者                                  2”的社
                           O(γ k ) 有关, 其中
                 区  (为保护个人隐私, 本文仅以不同编号代替具体作者姓名), 其中参数                  k 和  q  分别设置为  2  和  5. 值得注意的是, 极
                 大  k-biplex  模型在此参数条件下难以在限定时间内找出所需结果, (α, β)-核模型所检测的社区规模过于庞大, 顶点
                 数超过   100  个. 为此本实验忽略了这两个模型的搜索结果. 图            8  展示了由二团模型和      k-缺陷二团模型的搜索结果.
                 可以看出, 相较于二团模型, 基于极大          k-缺陷二团模型可以从该数据中搜索到更多具有价值的信息. 具体地, 二团
                 模型的结果不包含研究者“研究者            1”和“研究者   7”, 然而  k-缺陷二团模型能够成功找出这两名研究者. 通过查找
                 DBLP  原始数据可知, 这两名研究者确实与其他研究者也存在非常密切的合作关系, 表明所提出的极大                              k-缺陷二
                 团在真实二部图中检测社区具有一定的意义.

                                          研究    研究    研究   研究    研究   研究    研究
                                           者 1  者 2   者 3  者 4   者 5   者 6  者 7








                                             (1)   (2)   (3)   (4)  (5)   (6)
                                                             二团
                                  图 8 利用   k-缺陷二团搜索包含“研究者        2”的社区结果    (  k = 2 q = 5 )
                                                                                  ,

                 6   总 结

                    本文研究了面向二部图数据的稠密子图挖掘问题. 由于传统二团模型的限制过于严格, 为此本文提出了一种
                 称之为   k-缺陷二团的松弛二团模型. 为解决极大            k-缺陷二团枚举问题, 本文首先提出了一种基于对称集合枚举的
                 搜索算法. 为进一步提高算法的性能, 本文还提出了一系列的优化方法, 主要包括基于排序的子图划分方法、基于
                 上界的剪枝方法、线性时间的更新方法以及分支优化方法. 本文证明所提出的优化方法具有非平凡的理论时间复
                                        γ k < 2 . 最后, 大量的实验表明所提出的极大       k-缺陷二团枚举算法在大部分参数情况
                 杂度, 主要与
                 下相较于传统枚举方法速度提高了            100  倍以上.

                 References:
                  [1]  Lancichinetti A, Fortunato S. Community detection algorithms: A comparative analysis. Physical Review E, 2009, 80(5): 056117. [doi:
                     10.1103/PhysRevE.80.056117]
                  [2]  Harley E, Bonner A, Goodman N. Uniform integration of genome mapping data using intersection graphs. Bioinformatics, 2001, 17(6):
                     487–494. [doi: 10.1093/bioinformatics/17.6.487]
   397   398   399   400   401   402   403   404   405   406   407