Page 256 - 《软件学报》2025年第9期
P. 256
黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法 4167
行调整为 0, 以降低反义事件之间的相似度得分.
基于以上 4 个维度计算得到 ECKG 事件之间的相似度, 再进行加权平均后, 就能得到两个事件的综合相似度.
加权平均相似度的计算公式为:
Sim wt (E i ,E j ) =CosSim_ESR(v esri ,v esrj )×wt_CosSim_ESR
+CosSim_SRL-ASC(v srl-asci ,v srl-ascj )×wt_CosSim_SRL-ASC
+Sim_SRLS(S i ,S j )×wt_Sim_SRLS (3)
其中, CosSim_ESR(v esri ,v esrj ) 和 wt_CosSim_ESR 分别表示第 i 个与第 j 个含实体类型的语义角色嵌入向量的余弦
相似度及其对应的权重; CosSim_SRL-ASC(v srl-asci ,v srl-ascj ) 和 wt_CosSim_SRL-ASC 分别是第 i 个与第 j 个关联句子成
分且含实体类型的语义角色嵌入向量的余弦相似度与对应的权重; Sim_SRLS(S i ,S j ) 和 wt_ Sim_SRLS 分别代表
第 i 个与第 j 个语义角色标注结构的相似度及权重. 经过多轮的实验测试, 本文最终设置 wt_CosSim_ESR、
wt_CosSim_SRL-ASC 和 wt_ Sim_SRLS 这 3 个权重的值分别为 0.6、0.2 和 0.2.
经过实验证明, 本文方法在准确性上实现了显著的提升, 证明了本文方法在评估计算事件相似度上的有效性.
算法 1 展示了计算 ECKG 事件相似度的整个流程.
算法 1. 计算 ECKG 事件相似度算法.
输入: 含实体类型的事件语义角色 (ESR)、关联句子成分的语义角色标注 (SRL-ASC) 和语义角色标注结构
(SRLS) 文件;
输出: 加权平均相似度.
1. 初始化嵌入向量大小 embedding_size = 1536
2. 初始化空的 embedding_df 存储嵌入向量
3. 分别遍历 ESR 和 SRL-ASC 数据
4. 通过 API 调用 OpenAI 的 embedding 模型
5. 获取 ESR 与 SRL-ASC 的嵌入向量 v esr 和 v srl-asc
6. 引入反义词特征, 计算余弦相似度
7. 当两个事件互为反义:
8. adjusted_similarity *= 0
9. 获取余弦相似度 CosSim_ESR 和 CosSim_SRL-ASC
10. 遍历 SRLS 数据
11. 获取事件标注结构中相同的元素数量 num
12. 计算结构的相似度 Sim_SRLS = num/max (标注结构序列长度)
13. 分配相似度权重 wt_CosSim_ESR=0.6, wt_CosSim_SRL-ASC=0.2, wt_Sim_SRLS=0.2
14. 加权平均 CosSim_ESR×0.6+CosSim_SRL-ASC×0.2+Sim_SRLS×0.2
15. 得到 ECKG 事件之间的相似度
在算法 1 中, 首先, 初始化嵌入向量的大小、存储 ESR 和 SRL-ASC 的嵌入向量数据 (第 1 和 2 行). 接下来,
遍历 ESR 和 SRL-ASC 的数据, 并通过 OpenAI 的嵌入模型分别获取对应的嵌入向量 (第 3–5 行). 在计算 ESR 和
SRL-ASC 余弦相似度时, 引入事件反义特征, 将互为反义的事件相似度调整为 0, 进而得到语义角色和关联句子成
分的语义角色标注的相似度 (第 6–9 行). 然后, 引入事件标注结构特征, 并计算了结构的相似度 (第 10–12 行). 最
后, 通过加权平均 ESR、SRL-ASC 和 SRLS 的余弦相似度, 得到了 ECKG 事件之间的综合相似度 (第 13–15 行).
4 实验与分析
本节展示具体的实验结果, 并进行了详细分析和讨论, 以证明本文方法在扩展事件常识知识图谱的实用性.

