Page 238 - 《爆炸与冲击》2026年第5期

P. 238

第 46 卷王继民，等：意外爆炸毁伤知识图谱研究第 5 期

2.3 评价指标
将事件从非结构化的文本中抽取出来，规定只有在触发词和论元都正确抽取的前提下，才能认为当
前的事件抽取结果是正确的。采用事件抽取任务通用的精确率（precision, P）、召回率（recall, R）以及综
合评价指标 F (F1-score) 对知识图谱的构建结果进行评价。
1
T P
P = ×100% (5)
T P + F P
T P
R = ×100% (6)
T P + F N
PR
F 1 = 2 ×100% (7)
R+ P
式中：T 表示真实例，F 表示反实例，F 表示假实例，T 表示真反例。
N
P
N
P
2.4 实体对齐相似阈值分析
对验证集中的实体进行余弦相似度计算， 1.0
并进行匹配。选择不同的相似度阈值，分析实体 0.9
匹配的精确率，如图 5 所示。相似距离在 Precision 0.8
0.725 以上时，91% 的样本匹配正确，因此将实体 0.7
0.6
识别的阈值设为 0.725。当两个实体的相似值在 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
Similarity threshold
阈值以上时，认为是匹配的，然后通过人工对部
分错误实体进行修正。图 5 相似度阈值与实体对齐精确率的关系
2.5 实验结果分析 Fig. 5 Precision vs. similarity threshold curve
为验证提出的模型在事件抽取任务中的性能，在自建的意外爆炸毁伤语料集上分别从事件分类和
事件元素分类两个方面进行实验评估。在事件分类实验中，选取了 BERT-BiLSTM-CRF（ BERT
bidirectional long short-term memory conditional random field）、BiLSTM-CRF 和 DMCNN [17] （dynamic multi-
pooling convolutional neural network）作为对比模型。在事件元素分类任务中，选取了 C-BiLSTM（cascade
BiLSTM）、BERT-QA（BERT for question answering）和 DMCNN 进行对比。对比结果如表 8 和表 9 所示。

表 8 事件分类比较表 9 事件元素分类比较
Table 8 Comparison of event classification Table 9 Comparison of event element classification
模型 P/% R/% F 1 /% 模型 P/% R/% F 1 /%
BERT-BiLSTM-CRF 71.4 49 57.0 C-BiLSTM 47.3 46.6 46.9
BiLSTM-CRF 52.1 44 47.7 BERT-QA 56.2 50.7 53.3
DMCNN 66.5 53 58.0 DMCNN 55.3 52.2 53.7
RoBERTa-GPLinker 69.2 55 61.0 RoBERTa-GPLinker 63.4 55.4 59.1

表 8 显示，RoBERTa-GPLinker 在意外爆炸毁伤语料集上具有明显优势，其在事件分类任务中表现出
最好的综合性能 F 值。RoBERTa-GPLinker 的召回率 R 比 BERT-BiLSTM-CRF 和 BiLSTM-CRF 分别高出
1
约 6% 和 11%，这主要得益于 RoBERTa-GPLinker 在面对文本中触发词重叠问题时，仅标注触发词的起始
和结束位置，避免了传统序列标注模型在字符重叠情况下容易出现的遗漏问题。RoBERTa-GPLinker 的
精确度 P 略低于 BERT-BiLSTM-CRF，这是由于其将事件抽取建模为关系抽取任务，触发词识别受到论
元抽取误差的影响。与同是联合抽取模型的 DMCNN 相比，RoBERTa-GPLinker 的精确率 P 和召回率

R 分别提高了 2.7% 和 2%。
表 9 中， RoBERTa-GPLinker 在事件元素分类中的综合性能指标 F 值优于其他模型。相比于
1
C-BILSTM，RoBERTa-GPLinker 的精确率 P 和召回率 R 分别提高了 16.1% 和 8.8%，主要原因在于后者基

051444-9

233 234 235 236 237 238 239 240 241 242 243