Page 267 - 《软件学报》2025年第9期
P. 267

4178                                                       软件学报  2025  年第  36  卷第  9  期


                 其他的关系和指标均表现不佳, 尤其是条件关系的准确率和召回率最低, 分别只有                         66.57%  和  67.32%.
                    (3) GPT-4-Turbo  模型在时序关系和条件关系的精确率表现较好, 都超过              98%, 但在准确率和召回率上表现较
                 弱. 时序关系的准确率和召回率分别为             68.24%  和  68.41%, 条件关系表现更为不足, 准确率和召回率分别只有
                 60%  和  59.57%.
                    (4) 讯飞星火和文心一言模型在          4  种事件关系中表现相近, 尤其在时序关系中表现最为出色, 各项指标都超
                 过  90%. 在因果关系中, 这两个模型的召回率较高, 均超过             92%, 但其他  3  个指标表现一般, 准确率最低为        74.21%.
                 在条件关系中, 虽然精确率在         97%  以上, 但其他指标均不足      89%. 在子事件关系中, 召回率超过         95%, 但其他指标
                 相对较弱.
                    总体来说, ft-ver 模型能够深入学习事件三元组的特征, 有效地验证新生成三元组的正确性, 为评估大规模的
                 因果、时序、条件和子事件关系的三元组提供了一种新的途径.

                 4.4.4    ECKG  事件相似度的实验结果
                    本文结合嵌入技术与多维度语义特征方法获取了                   ECKG  事件的相似度, 并对相似度结果经过阈值的筛选、
                 去重等预处理后, 最终得到        18 848  对相似事件. 此外, 为了验证本文计算相似度方法的有效性, 对没有经过语义角
                 色标注的原始事件进行相似度计算.
                    在这两种方法中, 本文首先筛选了相似度值在               [0.95, 1) 区间内的数据, 并分为    5  个子区间进行分析, 即     [0.95,
                 0.96), [0.96, 0.97), [0.97, 0.98), [0.98, 0.99) 和  [0.99, 1). 其次, 在每个区间随机选择  200  个事件对进行人工评估正确
                 性. 相关的结果如表      11  所示.


                                表 11 不同相似度计算方法在各相似度区间正确的事件对数量和准确率

                      方法            统计项         [0.95, 0.96)  [0.96, 0.97)  [0.97, 0.98)  [0.98, 0.99)  [0.99, 1)  [0.95, 1)
                   多维度事件语       正确的事件对数量          187        190       195       196       198     966
                   义角色相似度          准确率 (%)        93.5       95        97.5       98       99      96.6
                                正确的事件对数量          171        156       163       166       185     841
                  原始事件相似度
                                   准确率 (%)        85.5       78        81.5       83      92.5     84.1

                    从表  11  中的数据, 可以总结出以下结论.
                    (1) 使用多维度特征计算的方法, 相似事件的准确率随着相似度增加逐渐提高, 在                       [0.99, 1) 区间时准确率达到
                 99%, 最低的准确率为     93.5%. 在  5  个相似度区间中, 1 000  个事件对的平均准确率达到        96.6%.
                    (2) 相比多维度特征的计算方法, 仅基于事件本身的计算方法准确率有所下降, 最高准确率为                            92.5%, 最低准
                 确率在   [0.96, 0.97) 区间, 仅为  78%, 整体平均准确率为  84.1%.
                    除了使用多维度语义方法和原始事件计算事件相似度之外, 本文还采用了支持中文的抽象语义表示                                   [69] 工具
                 HanLP [70] 来解析事件和句法依存树     [71] 进行事件相似度的计算. 本文详细考察了这            4  种相似度计算方法的具体实
                 例, 并对比了不同方法计算得到的同一个事件的前                3  个最相似事件    (Top 3). 这些结果如表   12  所示, 其中每个事件
                 用顿号分隔. 关于表      12  的实例, 分析如下.
                    (1) 在“招待客人”事件中, 使用原始事件计算方法得到最相似事件是“邀请客人”, 而通过事件抽象语义表示和
                 句法依存树计算得出最相似的事件均为“想招待客人”. 本文提出的方法计算出“招待他人”为最相似事件. 根据本
                 文所提及中枢语义角色是事件的核心成分, 在判断事件相似度时, 中枢语义角色扮演着极为重要的作用. 因而在
                 “邀请客人”“想招待客人”和“招待他人”这           3  个相似事件中, 与“招待客人”的中枢语义最为一致的是“招待他人”. 这
                 体现了事件语义角色在提高事件相似度计算准确性中的重要性.
                    (2) 对于事件“对方爱自己”, 本文方法计算出最相似的事件为“他人爱自己”, 这两个事件的宾语一致. 相比之
                 下, 基于原始事件的计算结果为“爱不合适的人”, 从常识的角度分析, 事件“他人爱自己”与“对方爱自己”在情感的
                 表达上相似度更高. 同时, 通过抽象语义表示和句法依存树计算得到的前                       3  个最相似事件也与“对方爱自己”事件
                 较为相似. 这些结果证明了句子成分在事件相似度计算中的重要性.
   262   263   264   265   266   267   268   269   270   271   272