Page 172 - 《软件学报》2021年第10期

P. 172

3144 Journal of Software 软件学报 Vol.32, No.10, October 2021

2.2 双向互注意力计算
双向互注意力(bi-direction mutual attention)网络层负责将具有上下文特征的案件辅助句信息和案情描述
信息进行耦合,不同于以往常用的注意力计算方式,我们将每个时刻的注意力向量与之前的嵌入层相关联,且都
流向之后的网络层,目的是缓解过早归纳总结而导致的信息丢失.
2.2.1 案情描述与案件辅助句相似矩阵
该网络层主要是计算具有上下文特征的案情描述表征向量 K 和案件辅助句表征向量 L 的互注意力向量.
我们首先计算 K 与 L 之间的共享相似矩阵 S,再分别计算 K 和 L 之间的双向互注意力向量.相似矩阵 S 的计算
如公式(1):
S tj =(K :t ,L :j ) 2dJ (1)
其中,S tj 表示第 t 个案情描述词和第 j 个案件辅助句词之间的相似性;K :t 表示 K 的第 t 列向量;L :j 表示 L 的第 j
列向量;表示计算 K 与 L 之间相似度的可训练函数,如公式(2):
 (, )kl  W () S T ( ; ;k l k l  )  (2)
6d
其中,W ()S T  R 是待训练的权重向量,表示元素依次相乘,(;)表示向量在行上进行拼接,k 与 K 的列向量对应,l
与 L 的列向量对应.
2.2.2 案情描述到案件辅助句的注意力
对每个案情描述词而言,我们捕捉案件辅助句中与其比较相关的词,如图 3(左)所示.我们对 S 中列进行
softmax 归一化得到 a t ,再将 a t 与 L 中的每一列加权求和得到 KL,KL 表示案情描述与案件辅助句之间的注意力
向量矩阵,如公式(3)所示:
a  softmax (S  )  J
t : t (3)

KL  a L   tj : j  2dT
其中,S t: 表示第 t 个案情描述词与案件辅助句词的相似度,a t 则表示第 t 个案情描述词对案件辅助句词的注意力
权重.

Fig.3 Bi-direction mutual attention calculation, where S represents the similarity matrix, which a t is the
normalization of column in S, and p is normalized after taking the maximum value of each column in S
图 3 双向互注意力计算,其中,S 表示相似矩阵,a t 是 S 中列归一化所得,p 是取 S 中每列的最大值后再归一化
2.2.3 案件辅助句到案情描述的注意力
案件辅助句到案情描述的注意力计算方式是对于案件辅助句中的词而言的,案情描述中那些词与它比较
相关,这些词对案件关键特征的学习尤为重要,如图 3(右)所示.取相似矩阵 S 中每列的最大值 e,再经 softmax 归
一化后得到 p,利用 p 计算案情描述中与案件辅助句比较相关词的加权求和得到 lk;然后,lk 沿着列方向平铺 T
次得到案件辅助句到案情描述的注意力向量矩阵 LK,如公式(4):

167 168 169 170 171 172 173 174 175 176 177