Page 267 - 《软件学报》2025年第9期
P. 267
4178 软件学报 2025 年第 36 卷第 9 期
其他的关系和指标均表现不佳, 尤其是条件关系的准确率和召回率最低, 分别只有 66.57% 和 67.32%.
(3) GPT-4-Turbo 模型在时序关系和条件关系的精确率表现较好, 都超过 98%, 但在准确率和召回率上表现较
弱. 时序关系的准确率和召回率分别为 68.24% 和 68.41%, 条件关系表现更为不足, 准确率和召回率分别只有
60% 和 59.57%.
(4) 讯飞星火和文心一言模型在 4 种事件关系中表现相近, 尤其在时序关系中表现最为出色, 各项指标都超
过 90%. 在因果关系中, 这两个模型的召回率较高, 均超过 92%, 但其他 3 个指标表现一般, 准确率最低为 74.21%.
在条件关系中, 虽然精确率在 97% 以上, 但其他指标均不足 89%. 在子事件关系中, 召回率超过 95%, 但其他指标
相对较弱.
总体来说, ft-ver 模型能够深入学习事件三元组的特征, 有效地验证新生成三元组的正确性, 为评估大规模的
因果、时序、条件和子事件关系的三元组提供了一种新的途径.
4.4.4 ECKG 事件相似度的实验结果
本文结合嵌入技术与多维度语义特征方法获取了 ECKG 事件的相似度, 并对相似度结果经过阈值的筛选、
去重等预处理后, 最终得到 18 848 对相似事件. 此外, 为了验证本文计算相似度方法的有效性, 对没有经过语义角
色标注的原始事件进行相似度计算.
在这两种方法中, 本文首先筛选了相似度值在 [0.95, 1) 区间内的数据, 并分为 5 个子区间进行分析, 即 [0.95,
0.96), [0.96, 0.97), [0.97, 0.98), [0.98, 0.99) 和 [0.99, 1). 其次, 在每个区间随机选择 200 个事件对进行人工评估正确
性. 相关的结果如表 11 所示.
表 11 不同相似度计算方法在各相似度区间正确的事件对数量和准确率
方法 统计项 [0.95, 0.96) [0.96, 0.97) [0.97, 0.98) [0.98, 0.99) [0.99, 1) [0.95, 1)
多维度事件语 正确的事件对数量 187 190 195 196 198 966
义角色相似度 准确率 (%) 93.5 95 97.5 98 99 96.6
正确的事件对数量 171 156 163 166 185 841
原始事件相似度
准确率 (%) 85.5 78 81.5 83 92.5 84.1
从表 11 中的数据, 可以总结出以下结论.
(1) 使用多维度特征计算的方法, 相似事件的准确率随着相似度增加逐渐提高, 在 [0.99, 1) 区间时准确率达到
99%, 最低的准确率为 93.5%. 在 5 个相似度区间中, 1 000 个事件对的平均准确率达到 96.6%.
(2) 相比多维度特征的计算方法, 仅基于事件本身的计算方法准确率有所下降, 最高准确率为 92.5%, 最低准
确率在 [0.96, 0.97) 区间, 仅为 78%, 整体平均准确率为 84.1%.
除了使用多维度语义方法和原始事件计算事件相似度之外, 本文还采用了支持中文的抽象语义表示 [69] 工具
HanLP [70] 来解析事件和句法依存树 [71] 进行事件相似度的计算. 本文详细考察了这 4 种相似度计算方法的具体实
例, 并对比了不同方法计算得到的同一个事件的前 3 个最相似事件 (Top 3). 这些结果如表 12 所示, 其中每个事件
用顿号分隔. 关于表 12 的实例, 分析如下.
(1) 在“招待客人”事件中, 使用原始事件计算方法得到最相似事件是“邀请客人”, 而通过事件抽象语义表示和
句法依存树计算得出最相似的事件均为“想招待客人”. 本文提出的方法计算出“招待他人”为最相似事件. 根据本
文所提及中枢语义角色是事件的核心成分, 在判断事件相似度时, 中枢语义角色扮演着极为重要的作用. 因而在
“邀请客人”“想招待客人”和“招待他人”这 3 个相似事件中, 与“招待客人”的中枢语义最为一致的是“招待他人”. 这
体现了事件语义角色在提高事件相似度计算准确性中的重要性.
(2) 对于事件“对方爱自己”, 本文方法计算出最相似的事件为“他人爱自己”, 这两个事件的宾语一致. 相比之
下, 基于原始事件的计算结果为“爱不合适的人”, 从常识的角度分析, 事件“他人爱自己”与“对方爱自己”在情感的
表达上相似度更高. 同时, 通过抽象语义表示和句法依存树计算得到的前 3 个最相似事件也与“对方爱自己”事件
较为相似. 这些结果证明了句子成分在事件相似度计算中的重要性.

