Page 259 - 《软件学报》2025年第9期
P. 259

4170                                                       软件学报  2025  年第  36  卷第  9  期


                 分数  ( F BERT ) 这  3  个评估指标, 有效地衡量系统生成文本的整体性能. 这        3  个指标的介绍如下.
                     P BERT  衡量了新三元组中的每个三元组找到的最相似参考三元组的相似度平均值, 以反映新三元组的整体质

                 量. 计算公式为:

                                                          1  ∑
                                                                   T
                                                    P BERT =  maxX ˆ X j                              (4)
                                                          |ˆx|  x i ∈x  i
                                                            ˆ x j ∈ˆx
                 其中,   ˆ x 表示新三元组数据集,   |ˆx| 表示新三元组的总数量,      ˆ x j  表示第   个新三元组,  x 表示参考三元组数据集,     x i  表
                                                                     j
                                   T
                 示第  i 个参考三元组,   X ˆ X j  表示新三元组与参考三元组的余弦相似度.
                                  i
                     R BERT  测量了每个参考三元组找到的最相似新三元组的相似度平均值, 反映了参考三元组在新三元组中的覆

                 盖度. 计算公式为:

                                                          1  ∑
                                                                   T
                                                    R BERT =  maxX ˆ X j                              (5)
                                                          |x|  ˆ x j ∈ˆx  i
                                                            x i ∈x
                 其中,  |x| 表示参考三元组的总数量.
                       F BERT  是   P BERT  和  R BERT  的调和平均, 综合考量了新三元组的精确性和完整性. 计算公式为:

                                                            P BERT ·R BERT
                                                    F BERT = 2·                                       (6)
                                                            P BERT +R BERT
                    同时, 针对验证任务的微调模型, 选用           Alpaydin [63] 的准确率、精确率、召回率和      F1  值作为衡量指标, 以评估
                 微调后模型的性能. 这些评估指标的详细说明如下.
                    准确率: 表示在新生成的事件三元组中, 正确事件三元组所占的比例. 计算公式为:

                                                       正确的事件三元组数量
                                                准确率 =                                                 (7)
                                                         事件三元组总数量
                    精确率: 表示在所有被标记为正确的事件三元组中, 实际为正确的比例. 计算公式如:

                                                     正确识别的事件三元组数量
                                            精确率 =                                                     (8)
                                                    标记为正确的事件三元组总数量
                    召回率: 表示在所有实际为正确的事件三元组中, 被正确标记出来的比例. 计算公式为:

                                                     正确识别的事件三元组数量
                                            召回率 =                                                     (9)
                                                    实际为正确的事件三元组总数量
                    F1  值: 精确率和召回率的调和平均. 计算公式为:

                                                          精确率×召回率
                                                   F1 = 2×                                           (10)
                                                          精确率+召回率

                 4.3.2    人工评估
                    为了进一步验证新三元组的准确性, 本文还组织了                 4  名具备相关领域专业知识的研究生           (包括两名博士生和
                 两名硕士生) 进行人工评估, 并计算了评估结果的准确率. 在评估时, 评估小组按照以下标准和步骤进行审查.
                    (1) 评估人员根据事件三元组的语义和逻辑关系是否符合常识、事件三元组表达的语义是否完整以及是否与
                 现有的   ECKG  事件三元组的表达形式一致对测试集生成的所有事件三元组进行评估, 并记录每一个事件三元组
                 的评估结果.
                    (2) 如果评估人员认为一个事件三元组是正确的, 则标记为“正确”; 若认为是错误的, 则标记为“错误”; 对于不
                 确定一个事件三元组的准确性, 则标记为“不确定”.
                    (3) 所有评估人员的评估结果整合后, 对于评审结果一致的事件三元组, 将其认为最终结果.
                    (4) 对于审查结果不一致的事件三元组, 评估小组将再次讨论和审核, 直到至少有                       3  位评估人员的评估结果一
                 致, 才将这个结果作为该事件三元组的最终审查结果.

                 4.3.3    实际应用评估
                    此外, 本文基于课题组常识知识库的推理方法               [27] 将新获取的事件三元组应用于逻辑推理任务, 以验证本文扩
                 展的  ECKG  在具体应用中的实际表现. 具体来说, 使用事件语义角色和头尾事件约束谓词的翻译方法将新获取的
   254   255   256   257   258   259   260   261   262   263   264