Page 426 - 《软件学报》2025年第4期

P. 426

1832 软件学报 2025 年第 36 卷第 4 期

h 跳的随机邻居采样完成子图构建, 在微调阶段则通过轻量级对齐投影将图中每个
点视为中心节点, 并通过进行
节点的标记与相关的文本描述关联. 在第 2 阶段针对特定任务的微调时, 则需要根据不同的下游任务设计不同的
指令模板, 并对第 1 阶段的投影进行参数优化以适应不同的应用场景. 为了应对不同结构的图数据的分布变化给
大语言模型带来的准确性等挑战, GraphGPT 结合了思维链技术 [71] 并通过蒸馏辅助生成高质量的思维链指令, 提
高了逐步推理能力. GraphGPT 总体准确率较高且具有出色的泛化性能, 但由于模型总体参数量较大, 仍有减少不
必要参数的提升空间.
总的来说, 近年来基于普通图的大模型工作利用了 LLM 在文本处理和生成方面的优势, 在附带丰富文本信息
的图数据上具有广阔的应用前景.

5.2.2 基于时空图的大模型
在时空图方面, 有一些研究者也做了相关的工作, 例如, Liu 等人 [72] 针对现有 LLM 对空间信息提取不足的问题,
提出了 ST-LLM 框架, 它包括时空嵌入层、将时空信息融合的卷积层、使用部分冻结注意力 (PFA) 的 LLM 层和回
归卷积层, 可用于交通预测. 其中, ST-LLM 中的部分冻结注意力 (PFA) 的 LLM 层中前 F 层中的多头注意力部分和
前馈层被冻结, 用来保留预训练中的重要知识, 后 U 层的多头注意力部分则被解冻, 有助于更好地提取时空依赖性.
图 11 UrbanGPT
Li 等人 [73] 提出的 UrbanGPT 则设计了一个时空编码器并使用轻量级对齐模块投影得到时空表示, 再输入到
LLM 生成有助于生成数值预测的 token, 最后通过回归层生成更准确的预测值. UrbanGPT 的结构图如图 11 所示.
其中, 时空编码器主要由门控扩张卷积层 [7] 和多级相关注入层组成, UrbanGPT 对 LLM 设计了时间和空间维度的
文本时空提示, 并进行了时空指令调优. 在表 6 中, 我们总结了 UrbanGPT [73] 与主流复杂时空融合架构 STGCN [5]
和 ASTGCN [13] 使用上述 3 个用于流量预测的经典数据集在零样本场景下进行评估的对比结果. 相比现有的主流
[5]
复杂时空融合架构, 如 STGCN 和 ASTGCN [13] , UrbanGPT 使用流量预测的经典数据集, 即 NYC-taxi, NYC-bike
和 NYC-crime 数据集中部分区域的数据进行预训练, 在零样本数据 (即训练过程中未出现过的区域的数据) 上进
行分类和回归任务的测试时表现更佳 [73] , 这表示对于时空预测任务中的零样本或者少样本场景, UrbanGPT 的泛
化能力更强, 可以更好地推广到新地区或新城市的预测任务中.

Spatio-temporal dependency encoder Spatio-temporal instruction-tuning Spatio-temporal zero-shot prediction
Region A City A
l=3 Given the historical data and th corresponding tokens
l=2 <ST_HIS> for taxi flow… The recording time… This region Train
city
is located… please generate the predictive tokens for… Train region
l=1 Instructions
Region B City B
Test
Based on the given information, the predictive tokens city
…
of taxi inflow and outflow in this region are <ST_PRE> … Test region Multi-tasks
Responses Trainable Frozen
ST instruction-tuning of LLMs Instruction-tuning Zero-shot prediction
Gate
<ST_HIS> <ST_PRE> ST encoder
ST dependency representations tokens
Regression layer Alignment Task assignment
Regression Text instructions
Lightweight alignment module Text replacement
Alignment Inflow: [28 26 20 33 49 50 48 34 40 22…]
Large language models
<ST_HIS> LLMs space <ST_HIS> Outflow: [40 52 58 32 22 10 18 19 20 24…] Liama Vicuna …
的架构 [73]

表 6 UrbanGPT 与主流复杂时空融合架构在零样本场景下的对比结果 [73]

NYC-taxi NYC-bike NYC-crime
模型流入流出流入流出入室盗窃抢劫
MAE (平均绝对误差) MAE (平均绝对误差) Macro-F1 召回率 Macro-F1 召回率
UrbanGPT [73] 6.16 6.83 2.02 2.01 0.67 0.34 0.69 0.42
STGCN [5] 12.54 14.32 4.11 4.45 0.48 0.00 0.64 0.30
ASTGCN [13] 9.75 12.42 5.58 5.78 0.49 0.01 0.55 0.09

421 422 423 424 425 426 427 428 429 430 431