Page 313 - 《软件学报》2024年第4期
P. 313

张启辰 等: 一种基于窗口机制的口语理解异构图网络                                                       1891


                    (2) 我们互连意图标签节点并对每个意图标签之间的关系进行建模, 以了解彼此的语义级信息.
                    (3) 对于槽之间的连接, 我们应用了带有窗口机制的自注意力单元以进行槽节点之间的相互信息交互, 同时可
                 以将其视为一种抽象边        (如图  2  中异构交互注意力层虚线所示).
                    通过这样, 我们在一个统一的框架中对意图和槽位信息进行显式建模. 意图标签节点的输入嵌入表示为
                 ˆ I = { ˆ I 1 ,..., ˆ I m } 是由第  2 级意图解码器生成的, 词级节点的输入嵌入表示为  H = {h ,...,h } . 交互信息过程形式化为:
                                                                                   S
                                                                              S
                                                                          S
                                                                              1    n
                                                                 (    k T    
                                                                            )
                                                                   S
                                                                      k
                                                                         S
                                        K  ∑                 h W H W   (    ) 
                                          
                                     ′        k  k              i  q  k    S  k 
                                                                             
                                                                                                (15)
                                                    
                                    S = || σ  α W ˆ I j +Softmax  f window   √   H W 
                                     i        ij  g                         v  
                                                                             
                                                            
                                          
                                       k=1                              d
                                            j∈D S
                                                                        
                                                   K  ∑        ∑         
                                                      
                                                ′        k  k     k  k S  
                                                I = ∥ σ    α W ˆ I j +  α W h                   (16)
                                                i
                                                          i j
                                                                      g
                                                                    ij
                                                             g
                                                                        j 
                                                   k=1
                                                       j∈D I    j∈D S
                 其中, 公式  (15) 中的   α  表示槽节点  h  对意图节点   ˆ I j  的注意力权重, 与之类似的, 公式    (16) 中的  α  表示意图节点
                                  k
                                                                                            k
                                              S
                                  ij          i                                             ij
                                                         k
                                       S                α  均满足公式    (14) 的表现形式. 同时, 公式    (15) 中的自注意力
                 ˆ I i  对意图节点   ˆ I j  和槽位节点  h  的注意力权重, 以上
                                        j                ij
                                                          ∑         ∑
                                                                        k
                                                                            S
                                                              k  ˆ     α W g h  是用于合并语义级和词级交互信息
                 算法为本节中提出的带有窗口机制的自注意力算法;                     α W g I j  和   i j  j
                                                              ij
                                                          j∈D S      j∈D I
                 的跨任务连接; 域     D I  和   D S  是表示意图标签节点和词级槽节点之间的连接边的顶点集合域, 其满足构造图中边                     E
                 的  3  种连接形式.    K  表示多头注意力头的数量.      S = {S ,...,S } ∈ R n×d ′   和  I = {I ,...,I } ∈ R m×d ′   代表是迭代更新后
                                                                 ′
                                                                          ′
                                                                                  ′
                                                       ′
                                                            ′
                                                                              ′
                                                            1    n            1   m
                 的词级槽位和意图标签信息嵌入表示.
                  3.4   意图感知槽填充解码器
                    根据以上, 我们得到更新的节点信息, 其中每个槽节点已经包含了每个意图标签的特征. 为了实现更精确的槽
                                                                                  ¯ I  , 并经过一系列操作选取最
                 位填充效果, 我们设置了本单元来利用两级意图解码器中每个单词的抽象意图表征
                 有可能的意图标签, 并利用该意图信息来指导当前话语的最终槽位填充任务, 形式如下:
                                                                      
                                                         m
                                                        ∑ [ (    )   ]
                                                  I                   
                                                 p = max     1 σ ¯ I (i,k) > 0.5               (17)
                                                  i
                                                         k=1
                                                 {        }           (    )
                                             O = ˆ I p , ˆ S 1 ,..., ˆ S n = Transformer I p ∥ S  ′  (18)
                       I     ¯ I                                                                 I p  表示为
                 其中,    p  表示   经过变换后按维度相加并选择最大值作为学习到的意图嵌入特征表示的索引, 即
                       i
                  ′  ′    ′         I                  Transformer(·) 表示自注意力机制对预测意图和槽节点嵌入拼接
                 I = {I ,...,I } 中索引为   p  的意图标签嵌入表示.
                     1    m         i
                 形式的最终解码      (形式上与带有窗口机制的自注意力算法一致, 窗口大小为                  δ  ),    ˆ S = { ˆ S 1 ,..., ˆ S n } 是最终的槽位嵌入
                                                                            ′
                 表示, 用作槽位填充任务预测. 我们应用标准条件随机场层                 [4] 来解码槽标签:
                                                             ˆ
                                                       O s = W S S i +b S                            (19)
                                                      ∑
                                                          exp f (y i−1 ,y i ,O s )
                                                 S       i=1
                                                 y = ∑ ∑                                             (20)
                                                                (      )
                                                                 ′  ′
                                                            exp f y ,y ,O s
                                                                    i
                                                                 i−1
                                                       y ′  i=1
                                                                                                   y  是预
                                                                                                    S
                    根据上述公式,      W S  为可训练矩阵,   b S  为偏执向量;   f(y i−1 ,y i ,O s ) 是计算从  y i−1  到   y i  的转换分数的函数,
                 测的槽位填充标签序列.
                  3.5   联合训练
                    我们的模型经过训练以最小化意图检测和槽位填充的最终联合负对数似然目标函数. 其中意图检测和槽位填
                 充目标损失函数如下:
                                                         n ∑ m ∑
                                                                  (  )
                                                              i,I
                                                    L 1 ≜ −   ˆ y log y i,I                          (21)
                                                               j    j
                                                         j=1 i=1
                                                            T
                                                         n ∑∑
                                                                  (  )
                                                              i,S
                                                   L 2 ≜ −   ˆ y log y i,S                           (22)
                                                              j
                                                                    j
                                                         j=1 i=1
   308   309   310   311   312   313   314   315   316   317   318