Page 250 - 《软件学报》2025年第9期

P. 250

黄俏娟等: 基于大语言模型的事件常识知识图谱扩展方法 4161

收获先于
信任

强化先于先于先于收到解决先于先于增强
关系回报难题关系
帮助帮助
朋友他人
获得传递获得收获
感激先于先于正能量尊重先于先于感激
先于
先于收获
信任

图 3 事件共享示例图

为了克服相似事件生成的三元组不一致的问题, 本文提出事件共享机制. 即在相同事件关系下, 将语义相似
的 ECKG 事件所关联的事件进行互相共享. 此外, 通过分析原始事件的语义相似度, 不仅可以增强原始事件的相
似语义 (如图 3 中的“帮助朋友”和“帮助他人”这两个事件), 还有效解决了由 LLM 生成事件三元组时知识碎片化
的问题.
在获取 ECKG 事件的语义相似度方面, 本文提出了一种融合多维度语义特征的嵌入式方法. 对于获取事件的
高质量嵌入向量, 本文选用 OpenAI 开发的 text-embedding-ada-002 模型. 这是一个基于大型语料库预训练的模型,
能够将文本信息转换为 1 536 维的向量, 进而捕捉文本的丰富语义内容, 这对于精确计算事件之间的相似度起到至
关重要的作用. 在语义相似度的计算过程中, 采用了余弦相似度作为度量标准. 余弦相似度通过计算两个向量在多
维度空间中夹角的余弦值来评估它们之间的相似度, 其值的范围从−1 (完全相反) 到 1 (完全相同), 0 表示两个向
量互相独立. 余弦相似度的计算公式为:

∑ n
v 1i .v 2i
i=1
CosSim(v 1 ,v 2 ) = √∑ √∑ (1)
n n
v 2 v 2
i=1 1i i=1 2i
其中, v 1 和 v 2 是两个非 0 的向量, v 1i 和v 2i 分别代表向量 v 1 和v 2 在第 i 个维度上学习到的特征值.
具体地, 本文通过融合涵盖实体类型的事件语义角色、关联句子成分的语义角色、语义角色的标注结构和事
件反义多维度特征来计算事件余弦相似度, 以捕捉事件中的细微语义差异并精确量化它们之间的相似性. 这 4 种
维度的详细介绍如下.
(1) 基于实体类型的事件语义角色 (event semantic role, ESR)
包含实体类型的事件语义角色是指事件中的主体、时间和地点等成分扮演的语义角色, 以及每个成分对应的
实体类型 [14,26] . 在本文中, 采用了课题组提出的包含实体类型的事件语义角色分类体系 [14,45,48] , 该分类体系已经应
用于对 ECKG 中所有事件进行详细的语义角色标注. 具体地, 该语义角色分类体系主要包含以下 3 个部分.
(a) 中枢语义角色: 表示一个事件的核心, 通常由谓词扮演, 并且每个事件仅有一个中枢语义角色. 课题组归纳
的中枢语义角色包括 8 种一级类别和 26 种更为详细的二级子类 [49,50] . 表 3 展示了中枢语义角色的具体类别、定
义和示例, 其中下划线字体为二级子类对应的中枢词.
(b) 周边语义角色: 指事件中枢所涉及的处于周边的语义角色, 一个事件可以包含多个周边语义角色. 课题组
对周边语义角色进行了细致的分类, 划分为 9 个一级类别和 32 个具体的二级子类 (即周边语义角色) [49−57] . 表 4 详
细展示了周边语义角色的类别、定义和具体判断标准, 其中括号中的内容为例句, 下划线字体表示对应的周边语
义角色.
(c) 实体类型: 事件中句子成分对应的实体类型. 在上述 (a) 和 (b) 的语义角色标注过程中, 会存在同一个语义
角色可能对应不同的实体类型的情形. 例如, 在“我买衬衫”和“我买手机”这两个事件中, 语义角色标注均为“施事
买受事”. 然而, 衬衫属于“衣物”类, “手机”属于“通信电子设备”. 因此, 为了获取事件更为精确的语义信息, 我们需

245 246 247 248 249 250 251 252 253 254 255