Page 256 - 《软件学报》2025年第9期
P. 256

黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法                                                     4167


                 行调整为   0, 以降低反义事件之间的相似度得分.
                    基于以上    4  个维度计算得到    ECKG  事件之间的相似度, 再进行加权平均后, 就能得到两个事件的综合相似度.
                 加权平均相似度的计算公式为:

                                  Sim wt (E i ,E j ) =CosSim_ESR(v esri ,v esrj )×wt_CosSim_ESR
                                             +CosSim_SRL-ASC(v srl-asci ,v srl-ascj )×wt_CosSim_SRL-ASC
                                             +Sim_SRLS(S i ,S j )×wt_Sim_SRLS                         (3)
                 其中,   CosSim_ESR(v esri ,v esrj )  和  wt_CosSim_ESR  分别表示第  i 个与第  j 个含实体类型的语义角色嵌入向量的余弦
                 相似度及其对应的权重;        CosSim_SRL-ASC(v srl-asci ,v srl-ascj ) 和  wt_CosSim_SRL-ASC  分别是第  i 个与第  j 个关联句子成
                 分且含实体类型的语义角色嵌入向量的余弦相似度与对应的权重;                        Sim_SRLS(S i ,S j )  和  wt_  Sim_SRLS  分别代表
                 第  i 个与第  j 个语义角色标注结构的相似度及权重. 经过多轮的实验测试, 本文最终设置                           wt_CosSim_ESR、
                 wt_CosSim_SRL-ASC  和  wt_  Sim_SRLS  这  3  个权重的值分别为  0.6、0.2  和  0.2.
                    经过实验证明, 本文方法在准确性上实现了显著的提升, 证明了本文方法在评估计算事件相似度上的有效性.
                 算法  1  展示了计算   ECKG  事件相似度的整个流程.

                 算法 1. 计算  ECKG  事件相似度算法.
                 输入: 含实体类型的事件语义角色            (ESR)、关联句子成分的语义角色标注             (SRL-ASC) 和语义角色标注结构
                 (SRLS) 文件;
                 输出: 加权平均相似度.
                 1. 初始化嵌入向量大小 embedding_size = 1536
                 2. 初始化空的   embedding_df 存储嵌入向量
                 3. 分别遍历 ESR  和  SRL-ASC  数据
                 4. 通过  API 调用  OpenAI 的  embedding  模型
                 5. 获取  ESR  与  SRL-ASC  的嵌入向量   v esr  和  v srl-asc
                 6. 引入反义词特征, 计算余弦相似度
                 7. 当两个事件互为反义:
                 8.     adjusted_similarity *= 0
                 9.     获取余弦相似度     CosSim_ESR  和  CosSim_SRL-ASC
                 10. 遍历  SRLS  数据
                 11.   获取事件标注结构中相同的元素数量             num
                 12.   计算结构的相似度       Sim_SRLS = num/max (标注结构序列长度)
                 13. 分配相似度权重     wt_CosSim_ESR=0.6, wt_CosSim_SRL-ASC=0.2, wt_Sim_SRLS=0.2
                 14. 加权平均 CosSim_ESR×0.6+CosSim_SRL-ASC×0.2+Sim_SRLS×0.2
                 15. 得到  ECKG  事件之间的相似度

                    在算法   1  中, 首先, 初始化嵌入向量的大小、存储          ESR  和  SRL-ASC  的嵌入向量数据    (第  1  和  2  行). 接下来,
                 遍历  ESR  和  SRL-ASC  的数据, 并通过  OpenAI 的嵌入模型分别获取对应的嵌入向量            (第  3–5  行). 在计算  ESR  和
                 SRL-ASC  余弦相似度时, 引入事件反义特征, 将互为反义的事件相似度调整为                   0, 进而得到语义角色和关联句子成
                 分的语义角色标注的相似度          (第  6–9  行). 然后, 引入事件标注结构特征, 并计算了结构的相似度             (第  10–12  行). 最
                 后, 通过加权平均     ESR、SRL-ASC  和  SRLS  的余弦相似度, 得到了    ECKG  事件之间的综合相似度        (第  13–15  行).

                 4   实验与分析

                    本节展示具体的实验结果, 并进行了详细分析和讨论, 以证明本文方法在扩展事件常识知识图谱的实用性.
   251   252   253   254   255   256   257   258   259   260   261