Page 370 - 《软件学报》2025年第8期
P. 370

李云 等: 面向数据稀缺场景的智能交通流量预测                                                         3793


                                                                                             N
                                            r
                                                                          ;
                 表示输入特征的个数;        T r−1  表示第   层中时间序列的长度,     r = 1  时  T 0 = p V e ,b e ∈ R T r−1 ×T r−1  ,  U 1 ∈ R ,  U 2 ∈ R C r−1 ×N ,
                 U 3 ∈ R C r−1  是可学习的参数;  σ 为  Sigmoid  激活函数. 时间注意力矩阵  E 由变化的输入决定,     E 中的元素   E i,j  的值表
                      i 和   之间的依赖性强度, 最后利用        Softmax     E 进行归一化.
                          j
                 示时刻                                    函数对
                                                    ′
                    本文直接将归一化后的时间注意力矩阵              E  与输入相乘, 动态调整输入, 得到注意力机制调整后的数据, 即:

                                              ¯ (r−1)  (    )     ′  N×C r−1 ×T r−1
                                             X    = ¯x t+1 ,..., ¯x t+p = X p E ∈ R                   (6)
                                               p
                 3.2.2    空间特征提取
                    图卷积层采用了       GCN  来提取空间特征. GCN     中包括谱域卷积和空域卷积, 为了充分利用交通路网的拓扑性
                                                                                    1  − 2 1  N×N  I N  为单
                                                                                   − 2
                 质, 本文采用谱域卷积的方式处理空间特征. 无向图的拉普拉斯矩阵定义为                       L = I N −D AD  ∈ R  , 其中
                                             ∑ N
                 位矩阵,  D ∈ R N×N   为对角矩阵,  D ii =  A i j  表示节点的度,  A 为图的邻接矩阵. 根据实对称矩阵正半 定的性质,
                                               j=1
                                                    T         N×N                     N×N
                 归一化的拉普拉斯矩阵可以分解为            L = UΛU , 其中  Λ ∈ R   是特征值的对角矩阵,      U ∈ R   是特征向量矩阵. 给
                                     N                            T                  ¯ x t = Uˆx t , 则图卷积操作定
                 定时间   t  的特征矩阵   ¯ x t ∈ R , 对于信号   ¯ x t  的傅里叶变换为   ˆ x t = U ¯x t , 其反傅里叶变换为
                 义如下:

                                                                      T
                                                 Θ∗ G ¯x t = Θ(L) ¯x t = UΘ(Λ)U ¯x t                  (7)
                                                    T
                 其中,  Θ ∈ R  是卷积核,  ∗ G  表示图卷积操作,  U ¯x t  为图信号   ¯ x t  的傅里叶变换.
                          N
                    为了解决计算代价太大的问题, 本文采用了切比雪夫多项式                   [8] , 表示如下:

                                                               K−1
                                                              ∑     ( )
                                                                     ˜
                                                 Θ∗ G ¯x t = Θ(L) ¯x t ≈  θ k T k L ¯x t              (8)
                                                               k=0
                                                             K
                 其中,   ˜ L = (2L/λ max )−I N λ max  表示  L 的最大特征值),  θ ∈ R  为切比雪夫多项式系数向量, 切比雪夫多项式使用递归
                                    (
                 的方式进行定义:     T 0 (¯x t ) = 1 T 1 (¯x t ) = ¯x t T k (¯x t ) = 2¯x t T k−1 (¯x t )−T k−2 (¯x t ) K −1 为多项式的系数.
                                                                     ,
                                      ,
                                              ,
                    在公式   (8) 的基础上引入一阶近似, 假定        K = 1, 通过堆积的多层图卷积网络建立          K  阶邻居的依赖, 降低运算
                 代价. 假设  λ max ≈ 2, 公式  (8) 可以简化为:

                                                     (      )
                                                      2L              (  1   1  )
                                                                        − 2
                                         Θ∗ G ¯x t ≈ θ 0 ¯x t +θ 1  −I N ¯x t ≈ θ 0 ¯x t −θ 1 D AD − 2  ¯ x t  (9)
                                                      λ max
                                                                                            ˜
                                                                                                     ˜
                 其中,   θ 0  和  θ 1  是卷积核的两个共享参数, 通过对参数进行约束来避免过拟合. 使               θ = θ 0 = −θ 1 A = A+I N D ii =
                                                                                           ,
                                                                                                    ,
                 ∑
                    ˜ A i j , 因此本文中的图卷积表示为公式     (10):
                   j

                                                   (          )    (       )
                                                                      1
                                                         1   1       − 2 ˜  1
                                            Θ∗ G ¯x t = θ I N +D AD − 2  ¯ x t = θ ˜ D A ˜ D  − 2 ¯x t  (10)
                                                        − 2

                 3.2.3    时间特征提取
                    TL-STGCN  设计了时序卷积层, 在时间轴上采用           Gated CNN  的方式来捕捉时间特征. Gated CNN     能够并行处
                                                                              K t  的  1-D  因果卷积, 以及一个非线
                 理时序数据, 具有训练速度快、结构简洁的优势. 时间卷积层包含内核宽度为
                 性的门控线性单元       (gated linear unit, GLU). 对于图中的每个节点, 时间卷积不加填充地搜索输入元素的             K t  邻域,
                 从而使序列长度每次缩短         K t −1. 每个节点处的时间卷积输入        ¯ x ∈ R p×C i   可以被视为长度为  p 的序列,  C i  为信道数.
                                                    Γ ∈ R K t ×C i
                 输入沿着时间维度进行一维卷积, 卷积核为                      , 个数为  2C 0 , 将输入   ¯ x  映射到单个输出元素, 得到  [PQ] ∈
                 R (p−K t +1)×2C 0  , 然后进行  GLU  激活. 因此, 时间门控卷积可以定义为:

                                                  Γ∗ T ¯x = P⊙σ(Q) ∈ R (p−K t +1)×C 0                (11)
                     P Q 都是
                 其中,  ,      GLU  的输入,  ∗ T  为时间卷积核, ⊙是   Hadamard  乘法,  σ 为  Sigmoid  激活函数.

                 3.2.4    时空图卷积
                    时空图卷积模块由两个时序卷积层和一个空间卷积层构成, 并在每个时空图卷积模块中进行归一化的处理来
                 防止过拟合. 第    1  个时序卷积层捕捉时间特征后, 通过空间卷积层来提取空间特征, 再次利用时序卷积层提取时间
                 特征, 这样的结构能够更深入地提取时间维度上的信息, 并且避免在处理空间特征过程中时间信息丢失                                 [8] . 第  l 个
                                    l
                 时空图卷积块的输入为        ¯ x ∈ R p×N×C l  , 输出为  ¯ x l+1  ∈ R (p−2(K t −1))×N×C l+1  , 计算过程如下:
   365   366   367   368   369   370   371   372   373   374   375