Page 272 - 《软件学报》2021年第8期
P. 272
2554 Journal of Software 软件学报 Vol.32, No.8, August 2021
Table 6 Comparison of F1 values of each model
表 6 各模型 F1 值对比
模型 线上效果 F1(%)
LSTM+CRF [1] 70.00
LSTM+CRF+char 70.16
LSTM+CRF+char+关联记忆网络 71.20
BERT-Base [1] 78.82
RoBERTa-wwm-base-ext 79.16
RoBERTa-wwm-base-ext+关联记忆网络 79.98
(4) 关联注意力矩阵分析
本文通过分析各关联句子间的注意力矩阵来验证关联记忆网络的有效性.图 6 是基于实体类别距离的一
对关联句子之间注意力矩阵的热力图,图中方格的亮度代表字符之间的相关性.从图中可以看出,对于“书籍”实
体,输入句子中的“证券时报”与记忆句子中的“《推背图》”存在强关联;对于“名字”实体,实体“唐曜华”和实体“李
淳风”存在强关联;对于“职位”实体,实体“记者”和“作者”存在强关联.这说明相同实体种类的上下文向量更加接
近,通过捕获记忆句子中强关联实体的真实标签信息,就可以提升输入句子中实体的类别预测.
Fig.6 Heat map of associated attention based on entity category distance
图 6 基于实体类别距离的关联注意力热力图
图 7 是基于编辑距离的一对关联句子之间的注意力矩阵的热力图,从图中发现,当记忆句子中不包含输入
句子中的一些实体类别时,记忆句子的一些实体会关联到句子的其他位置.
Fig.7 Heat map of associated attention based on edit distance
图 7 基于编辑距离的关联注意力热力图
如图 7 所示,因为记忆句子中不包含“书籍”的实体类别,导致“书籍”实体“证券时报”关联到了“职位”实体
“处长”,但是最终模型还是对“证券时报”做出了正确的预测.从实验中发现,基于编辑距离的记忆句子选择方式
出现上述情况的可能性要大于基于实体类别距离的记忆句子选择方式,但模型通过训练能很好地对错误融入