Page 158 - 《软件学报》2020年第12期
P. 158
3824 Journal of Software 软件学报 Vol.31, No.12, December 2020
在现实世界中,很多图数据上都带有时序信息,例如电信话务网络、金融交易网络、道路交通网络和在线
社交网络等等.而环路作为一种特殊的结构,在各种图中都频繁出现,并且拥有着重要的意义.目前,时序环已经
[1]
开始被应用于多个领域,有了多种实际应用.比如在生物领域,时序环可以表示某种生物反馈机制 ;在金融领
[2]
域,检测出的时序环可能代表了某一种金融诈骗行为 .攫取时序图结构,可以帮助我们挖掘未知的图模式.图 1
展示了两个具有不同含义的时序图.
• 图 1(a)为用户之间进行金钱交易的时序图,其中的时序边表示某一用户在某一时间向另一用户进行款
项支付.可以看到,买家 1 和买家 2 分别处于不同的时序环中,表明它们参与到了不同的有第三方参与
的欺骗行为中,具体可以表现为阿里巴巴中某些不正当的刷单行为;
• 图 1(b)表示细胞之间某些信息通过介质进行传递,最终由细胞 D 传往细胞 A 的时序边表示信息的反馈.
可见:在不同背景的时序图下,时序环拥有不同的意义.但在某些情形中,用户需要的并不是所有的环路,而
是某些长度的环路.最朴素的算法需要从每个点进行小于等于该长度的深度优先搜索,在大多数情况下,费时并
且会占用大量空间.本文在 2SCENT 算法的基础上提出一种两阶段的环路枚举算法,相对于 2SCENT,它减少了
搜索所需的时间,并且在大多数情况下都能显著节约存储空间.
Fig.1 Temporal cycles with different meanings
图 1 具有不同意义的时序环
本文的创新贡献主要包括以下两个方面.
(1) 提出了一种长度限制下的环路枚举新算法.该算法通过引入新型的剪枝技术,允许用户快速获得某一
长度以内的所有时序环;
(2) 在 4 个真实的时序图上进行了大量的对比实验,并详细分析了算法起效的原因,以及在不同情况下的
表现.实验结果表明,本文提出的算法较过去的 2SCENT 算法在性能上能够提升 50%以上.
本文第 1 节介绍时序环枚举的相关工作.第 2 节给出一些定义以及问题描述.第 3 节介绍环枚举算法的具
体设计.第 4 节在 4 个真实数据集上使用 2SCENT 算法和我们的算法来比较算法的运行效率.第 5 节总结全文
并且给出未来的工作.
1 相关工作
[3]
时序图 是由节点和带有时间戳的边组成的集合,相对于静态图而言,它加入了“时序”的概念,因此两个节
[4]
点之间的多条边不能简单地视作一条.针对时序图,有很多亟待处理的问题.时序图上的查询处理问题 主要有
路径问题、可达性问题和精确匹配问题等;时序图挖掘问题主要有最小生成树问题、稠密子图挖掘问题和 k-
匿名问题等等.
除此之外,由于在时序图上的子图会随着时间进行演化,而这种演化模式会随着时间推移不断出现,因此出
[5]
现了对“频繁演化模式”的算法研究 ,以及找到 k 个最有影响力的顶点,使得信息得到最大化传播的影响力最大
[6]
化算法研究等等 .可以说,研究时序图中隐含的信息,能够提升我们对信息网络的认知水平.