Page 312 - 《软件学报》2024年第4期
P. 312

1890                                                       软件学报  2024  年第  35  卷第  4  期



                                                                S
                                                             T
                                                           S
                                                                   T
                                                                     S
                                                Q S ,K S ,V S = H W ,H W ,H W T                      (10)
                                                             q     k    v
                                                          (    (     ))
                                                                Q S K S T
                                                 S = Softmax f window  √  V S                        (11)
                                                                  d k
                                                 1                   ···      
                                                        a 1   a 2       a N−1  
                                                                              
                                                                              
                                                                              
                                                                              
                                                                              
                                                        1                     
                                                 a 1          a 1    ···  a N−2  
                                                                              
                                                                              
                                                                              
                                                                              
                                                                              
                                                             1                
                                       f window (·) =    a 2  a 1   ···  a N−3                   (12)
                                                                              
                                                                              
                                                 .      .      .     .     .  
                                                 .      .      .      .    .  
                                                                              
                                                 .      .      .      .    .  
                                                                              
                                                                              
                                                                              
                                                                              
                                                                              
                                                                              
                                                 a N−1  a N−2  a N−3  ···  1
                                                                                N×N
                    函数   f window (·) 表示一个用于计算注意力权重的     mask  矩阵, 其中   a i = 1,a j = 0 当且仅当  i ∈ {1,...,δ} j , i , 其表
                                                                                                ;
                 示一段序列中的一个词节点根据窗口大小               δ 对其相邻上下文节点产生的关注, 则针对窗口外的节点不产生关注,
                 即  mask  矩阵掩盖掉当前节点所不关注的节点权重, 再进行              Softmax 操作. 多头注意力允许模型共同关注来自不同
                 位置的不同表示子空间的信息           [12] . 同样, 我们采用多头注意力机制来达到更好的拟合效果. 更新后的槽位填充词
                 级表示特征    S = {S 1 ,...,S n } ∈ R n×d emb  用于异构结构中部分迭代更新.
                    (2) 异构交互单元
                    图注意力网络是图神经网络的一种变体, 它被提出来学习节点与其邻居之间的重要性并融合邻居来进行节点
                 分类. 在这里, 我们介绍了前面提到的词级自注意力机制, 它可以学习基于路径的邻居对异构结构中每个节点的重
                 要性, 并将这些有意义的邻居的表示整合起来形成节点嵌入.
                                                                      ˜
                                                                         ˜
                                                             ˜ H = {h 1 ,...,h n } h i ∈ R  被定义为图注意力网络的初始输
                                                                 ˜
                                                                              F
                    传统图注意力网络. 对于一个有          n 个节点的图结构,                  ,
                                                            ˜ H = {h ,...,h } h ∈ R F ′   . 在节点嵌入表示上操作的图注意
                                                             ′
                                                                ˜ ′
                                                                     ˜ ′
                                                                        ˜ ′
                 入始节点, 经过一层的信息交互更新后单层节点输出为                              ,
                                                                 1    n  i
                 力机制可以表示为:
                                                                   
                                                        K  ∑        
                                                           
                                                    ˜ ′       k  k ˜                             (13)
                                                    h = ∥ σ  α W h j 
                                                     i        ij  h 
                                                        k=1
                                                            j∈N i
                                                    (         (  [       ]))
                                                               T   ˜    ˜
                                                 exp LeakyReLU a W h h i ∥ W h h j
                                                                                                     (14)
                                            α ij = ∑  (        (  [        ]))
                                                                 T  ˜    ˜
                                                   exp LeakyReLU a W h h i ∥ W h h k
                                                k∈N i
                                                                                                  i
                 其中,   σ 表示激活函数    (例如: Sigmoid  函数),    ∥ 表示连接操作;  K  表示多头注意力头的数量;     N i  表示节点   的邻居
                 节点域   (包括节点自身);    W h ∈ R F ′ ×F   是可训练权重矩阵;   a ∈ R 2F ′   是可训练节点级注意力向量, 权重系数  α ij  是非对
                                                         i 节点的基于路径的嵌入向量, 可以通过其邻居的投影特征聚
                 称的, 这意味着两个节点之间对彼此的关注度不同.
                     ˜ ′
                 合为  h  . 因为公式中分子拼接的序列不同, 以及它们有不同的相邻节点, 这个分母标准化项将会不同.
                      i
                    按照带窗口机制的自注意力单元的形式, 我们将图注意力网络和自注意力机制合并到异构结构中以整合不同
                 的粒度信息, 并相互迭代更新. 如图         2  所示, 槽位填充任务的词级节点表示是利用             (1) 中提出的带窗口的自注意力
                 机制和与之相连的意图节点通过自适应学习得到的, 意图节点嵌入表示也在同一个异构图中进行交互更新. 具体
                                                   ˆ I  连接,    来自第
                                                         ˆ I
                 来说, 我们构造每个槽节点与意图标签表示                           2  级意图解码器. 这使框架能够对跨槽依赖进行建模,
                 从而缓解不协调的槽位问题. 我们通过以下方式构建图                 G = (V,E) .
                                                                                                  n 是话语
                    顶点   V  : 当我们对槽和意图标记之间的交互信息进行建模时, 我们在异构图中有                     n+m 个节点, 其中
                 的单词序列长度,      m = |I label | 是意图标签的数量. 意图标签嵌入表示和槽嵌入表示可以分别抽象地理解为句级信息
                 和词级信息的特征.
                       E  : 我们所提出的异构单元由      3  种类型的边组成.
                    边
                    (1) 由于意图检测和槽位填充任务高度相关, 我们连接意图节点                   I i  和  x i  的槽节点以进行两个任务的信息交互.
                 具体来说, 每个槽节点连接所有意图标签节点以自适应地捕获相关意图信息.
   307   308   309   310   311   312   313   314   315   316   317