Page 429 - 《软件学报》2025年第4期
P. 429

邹慧琪 等: 基于图神经网络的复杂时空数据挖掘方法综述                                                     1835


                 神经网络在神经科学中的应用主要可以分为脑部疾病诊断、功能性脑网络构建以及其他脑活动预测与分类. 脑部
                 疾病诊断指在给定的神经影像数据中预测特定疾病的是否存在. 对于脑电图                         (EEG) 数据, 通常将脑电图中的电极
                 或通道抽象为图中的节点. 对于磁共振成像              (MRI), 节点则通过对    MRI 划分的子区域抽象得到, 并根据成像时间
                 建立动态图序列. Yan     等人  [106] 和  Qiu  等人  [107] 利用图神经网络及其变体处理由  MRI 得到的图数据用作脑部疾病
                 诊断的功能性判据. 功能性脑网络构建指对大脑不同功能区之间的关系与功能区本身进行建模, 以更好地了解脑

                 部活动紊乱形成的原因. Kim       等人  [108] 和  Yang  等人  [109] 对功能区之间的连接建模为动态图, 学习图中的时间与空间
                 信息, 赋予了功能区与其之间的连接更丰富的信息. 其他脑类活动的预测与分类应用包括脑部年龄预测                                [110] 和睡眠
                 阶段分类   [111] 等. Stankeviciute 等人  [111] 提出了时空图卷积神经网络模型对睡眠不同阶段中人脑电极之间的依赖关
                 系进行建模并分类.

                 6.6   大模型
                    许多工作在训练大模型的场景下对图数据进行了适配, 即针对图数据的预训练                           [112−115] 、提示学习  [116,117] 、微
                 调  [118,119] 和模型压缩  [120−122] 等. 另一方面, 也有许多工作  [123] 关注大语言模型  (LLM) 和图学习的结合, 包括评价大模
                 型解决自然语言描述图相关问题的能力, 如              Zhang  等人  [124] 提出的  LLM4DyG  模型衡量  LLM  对自然语言描述的
                 动态图相关任务的解决能力; 以及利用           LLM  作为图数据中文字属性的增强器等方面, 如             Liu 等人  [72] 提出的  ST-LLM
                 模型基于部分冻结注意力         (PFA) 的  LLM  层与时空图神经网络学习的时空特征进行对齐, 用于交通与安全场景下
                 的预测任务. 同时, LLM     与图结合在推荐系统       [125] , 知识图谱  [126] 和分子性质预测  [127] 等应用方面也有具体工作与展
                 望被提出.
                    除时空图数据以外, 时间序列也是研究者们希望大模型可以有效处理的时间信息数据. 时间序列方面, 基于朴
                 素  Transformer 的 TimeGPT [42] 和  Lag-Llama  [43] 成为时序领域通用大模型的代表. 更具体地, 时序大模型已经出现在
                 金融场景下的股票走势预测          [53,54] 、金融情绪分析和投资决策; 医疗场景下的行为问答、医学影像生成与评估; 与
                 交通场景下的     POI 分类等具体任务中.

                 7   数据集                                PeMS03

                    本节我们整理了部分常用的时空数据挖掘任务的公开数据集. 其中时空图数据集重点关注于应用场景下常用
                 的公开数据集, 忽略了常用来评价更宽泛的图神经网络性能的图数据集, 对于被忽略的图数据集, 可以参考                               Dwivedi
                 等人  [128] 的工作.
                    如表  8  所示, 最具代表性的     PeMS  系列数据集是由加利福尼亚交通部门通过城市中的传感器收集得到的交通
                 信息, 其中  PeMS04 [129] 包含了  3 848  个速度和流量监测器  2018  年  1  月  1  日–2  月  28  日收集的数据, PEMS-BAY [129]
                 包含了加州湾区      325  个监测器  2017  年  1  月  1  日–5  月  31  日收集的数据. METR-LA  [130] 包含了洛杉矶周边高速公
                 路  207  个监测器  2012  年  3  月  1  日–6  月  30  日收集的数据.

                                                      表 8 数据集表

                      数据类型               应用                                 数据集
                                                             [129]  , PeMS04 [129] , PeMS07 [129] , PeMS08 [129] , PEMS-BAY [129] ,
                           动态图         交通流预测                           [130]    [131]     [132]
                                                                METR-LA  , NYC taxi  , NYC bike
                    图                                                     [133]      [134]
                           动态超图      生物与神经科学                         ABID I  , HCP s1200
                          动态异质图         犯罪预测                        CHI_crime [135] , NYC_crime [135]
                                     轨迹相似度计算                AIS [136] , GeoLife [137] , T-Drive [138] , Porto [139] , Chengdu [140]
                        轨迹
                                      POI推荐、TUL                 Gowalla [141] , Brightkite [141] , Foursquare [142]

                    脑部医学领域常用的         HCP s1200 [134] 数据集分为 HCP-Rest 和  HCP-Task. 其中  HCP-Rest 包含带有标签的
                 1 093  张  fMRI 数据, 其中男性样本  499  张, 女性样本  594  张, HCP-Task  包含其余  107  张用于脑活动多分类任务的
                 测试数据集.
   424   425   426   427   428   429   430   431   432   433   434