Page 250 - 《软件学报》2025年第9期
P. 250
黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法 4161
收获 先于
信任
强化 先于 先于 先于 收到 解决 先于 先于 增强
关系 回报 难题 关系
帮助 帮助
朋友 他人
获得 传递 获得 收获
感激 先于 先于 正能量 尊重 先于 先于 感激
先于
先于 收获
信任
图 3 事件共享示例图
为了克服相似事件生成的三元组不一致的问题, 本文提出事件共享机制. 即在相同事件关系下, 将语义相似
的 ECKG 事件所关联的事件进行互相共享. 此外, 通过分析原始事件的语义相似度, 不仅可以增强原始事件的相
似语义 (如图 3 中的“帮助朋友”和“帮助他人”这两个事件), 还有效解决了由 LLM 生成事件三元组时知识碎片化
的问题.
在获取 ECKG 事件的语义相似度方面, 本文提出了一种融合多维度语义特征的嵌入式方法. 对于获取事件的
高质量嵌入向量, 本文选用 OpenAI 开发的 text-embedding-ada-002 模型. 这是一个基于大型语料库预训练的模型,
能够将文本信息转换为 1 536 维的向量, 进而捕捉文本的丰富语义内容, 这对于精确计算事件之间的相似度起到至
关重要的作用. 在语义相似度的计算过程中, 采用了余弦相似度作为度量标准. 余弦相似度通过计算两个向量在多
维度空间中夹角的余弦值来评估它们之间的相似度, 其值的范围从−1 (完全相反) 到 1 (完全相同), 0 表示两个向
量互相独立. 余弦相似度的计算公式为:
∑ n
v 1i .v 2i
i=1
CosSim(v 1 ,v 2 ) = √∑ √∑ (1)
n n
v 2 v 2
i=1 1i i=1 2i
其中, v 1 和 v 2 是两个非 0 的向量, v 1i 和v 2i 分别代表向量 v 1 和v 2 在第 i 个维度上学习到的特征值.
具体地, 本文通过融合涵盖实体类型的事件语义角色、关联句子成分的语义角色、语义角色的标注结构和事
件反义多维度特征来计算事件余弦相似度, 以捕捉事件中的细微语义差异并精确量化它们之间的相似性. 这 4 种
维度的详细介绍如下.
(1) 基于实体类型的事件语义角色 (event semantic role, ESR)
包含实体类型的事件语义角色是指事件中的主体、时间和地点等成分扮演的语义角色, 以及每个成分对应的
实体类型 [14,26] . 在本文中, 采用了课题组提出的包含实体类型的事件语义角色分类体系 [14,45,48] , 该分类体系已经应
用于对 ECKG 中所有事件进行详细的语义角色标注. 具体地, 该语义角色分类体系主要包含以下 3 个部分.
(a) 中枢语义角色: 表示一个事件的核心, 通常由谓词扮演, 并且每个事件仅有一个中枢语义角色. 课题组归纳
的中枢语义角色包括 8 种一级类别和 26 种更为详细的二级子类 [49,50] . 表 3 展示了中枢语义角色的具体类别、定
义和示例, 其中下划线字体为二级子类对应的中枢词.
(b) 周边语义角色: 指事件中枢所涉及的处于周边的语义角色, 一个事件可以包含多个周边语义角色. 课题组
对周边语义角色进行了细致的分类, 划分为 9 个一级类别和 32 个具体的二级子类 (即周边语义角色) [49−57] . 表 4 详
细展示了周边语义角色的类别、定义和具体判断标准, 其中括号中的内容为例句, 下划线字体表示对应的周边语
义角色.
(c) 实体类型: 事件中句子成分对应的实体类型. 在上述 (a) 和 (b) 的语义角色标注过程中, 会存在同一个语义
角色可能对应不同的实体类型的情形. 例如, 在“我买衬衫”和“我买手机”这两个事件中, 语义角色标注均为“施事
买 受事”. 然而, 衬衫属于“衣物”类, “手机”属于“通信电子设备”. 因此, 为了获取事件更为精确的语义信息, 我们需

