Page 268 - 《软件学报》2021年第8期
P. 268

2550                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                                                   M =  [a 1, j ,a 2, j ,...,a  , s l  j ]            (5)
                                                     j
                 其中,f(⋅)代表 softmax 函数,a i,j 是 M  raw  矩阵第 i 行的简化形式.
                                            j
                    标签序列的融入和合并如式(6)所示,是将归一化后的注意力矩阵 M j 与记忆句子对应的标签嵌入序列 L j
                 相乘后,得到融入了标签信息的序列 L′ ,它根据输入句子 s 中的每个字符对记忆句子中每个字符标签的关注程
                                               j
                 度来计算输入句子中每个字符对应的标签类别信息:
                                                          ] , j ∈
                                                L′ =  j  [a ⋅  , i j  L T j i= s l  1  {1,2,..., }n   (6)
                    最后,将 n 个融入了标签信息的序列 L′ 进行平均,并与句子 s 的上下文向量 s′拼接,得到最后的输入句子表
                                                  j
                 示 e,如式(7)所示.
                                                     e =  [, s mean L′                                (7)
                                                         ′
                                                              ( )]
                                                                j
                                   d+l
                 其中,e 的表示维度为\ ,mean(⋅)是平均函数.图 3 是嵌入层和关联记忆网络层的向量间的形状转换图.
                                   输入句子s              n  个记忆句子a             n 个记忆句子标签 L
                                     ()l s              (nl×  a  )              (nl×  a )

                                       Bert嵌入               Bert嵌入                 标签嵌入


                                 上下文嵌入向量   s′        上下文嵌入向量  a′             标签嵌入向量   L′
                                   (l ×  R d )          (l ×  R d  )           (nl××  R l )
                                                                                  a
                                    s
                                                         a
                                                点乘



                                             注意力矩阵M                                 加权和
                                              (nl×× l  )
                                                 s  a


                                             平均表示mean (a  L )     平均       融入标签信息的表示a     L
                                               (l × R l )                      (nl××  R l )
                                                 s                                s


                                                     拼接



                                                拼接表示e
                                               (l ×  R dl+  )
                                                s
                                       Fig.3    Shape transition diagram of vector in each layer
                                                 图 3   各层向量形状转换图
                 2.4   多头自注意力层
                    多头自注意力层的主要作用是结合序列各个位置的相关度,对融合了标签信息的字符表示进行重新编码,
                 使用自注意力机制对句子序列进行编码,避免了 LSTM 不能并行的缺点,同时可以更好地捕获全局信息.
                    多头自注意力层将最后的句子表示 e 作为输入,通过多头自注意力机制从多个角度计算输入序列任意位置
                 之间的相关度,突出序列每个位置实体类别的最重要信息.图 4 为多头自注意力的计算机制.
   263   264   265   266   267   268   269   270   271   272   273