Page 265 - 《软件学报》2025年第12期
P. 265

5646                                                      软件学报  2025  年第  36  卷第  12  期


                 务联合表示学习方法, 提升模型在多语义视图驱动下的向量联合表征能力.
                    (3) 在多个基准数据集上开展实验对比分析, 结果表明, 所提出的                 MSV-KRL  方法在绝大多数评测任务中性能
                 优于当前先进的基线模型, 且能适配多种语言模型, 并有效提升                   OWL  复杂语义的知识表示能力.
                    本文第   1  节介绍知识图谱表示学习的相关方法和研究现状. 第                 2  节首先阐述   OWL  知识表示学习任务定义,
                 然后介绍提出方法的总体架构, 详细讲述各个核心模块的关键内容. 第                     3  节给出相应的实验结果和分析. 第         4  节总
                 结全文, 并展望后续工作.

                  1   相关工作

                    根据知识图谱语义表示能力和建模对象的不同, 本文将现有的知识表示学习方法分为面向实例图谱的表示学
                 习和面向本体语义图谱的表示学习. 本节分析相关工作研究现状, 并总结现有方法的不足.
                  1.1   面向实例图谱的知识表示学习
                    实例图谱以     RDF  三元组为基本结构, 描述了头实体和尾实体之间的语义关系. 面向实例图谱的知识表示学习
                 旨在将实体和关系嵌入到低维连续的向量空间, 实现实例关系事实                      (h,r,t) 的向量化表达. 目前, 实例图谱表示学习
                 方法可分为翻译距离模型         (translational distance model, TDM) 和语义匹配模型  (semantic matching model, SMM) 两
                 类. 其中, Bordes 等人  [19] 提出的  TransE  模型是  TDM  的典型代表, 并成为后续研究模型扩展的基础. TransE       方法将
                                                                     (h,r,t), 将关系   表示为翻译向量  , 并将其视
                                                                                 r
                 知识图谱语义关系视为实体之间的空间平移. 对于实例断言三元组                                                l r
                 为头实体向量     l h  和尾实体向量  l t  的空间平移, 即  l h +l r ≈ l t . 然而, TransE  仅能对简单实体关系进行向量化表征, 在
                                                                                                      [28]
                                                                                              [27]
                 编码一对多、多对一和多对多等复杂实体语义关系时存在较大局限. 之后, 国内外学者又提出了                           TransH 、TransR 、
                 TransD  [29] 、TransG  [20] 和  TransRD [21] 等多种改进方法, 尝试解决复杂实体关系的语义向量表示和实体不对称等问
                 题. RESCAL [30] 、DistMult [31] 和  ComplEx [32] 等是  SMMs 类模型的典型代表. RESCAL  将每个实体与向量关联, 以捕
                 获其潜在语义. 每个关系都表示为一个矩阵, 该矩阵对实体潜在语义之间的两两相互作用进行建模, 并利用双线性
                 函数对三元组事实陈述进行打分. 然而, 上述知识表示学习方法仅面向静态实例图谱, 无法向量化表征动态图谱的
                 语义关系.
                    近年来, 面向大规模动态实例图谱的知识表示学习成为该领域研究的新兴任务之一. 例如, puTransE                          [33] 使用了
                 多个并行的嵌入空间对知识图谱的局部子图进行表示, 并选择全局最高能量值进行多空间的链接预测. iTransA                               [34]
                 实现了实体嵌入空间间隔和关系嵌入空间间隔的在线优化, 但在图谱嵌入学习过程中仍需重复训练所有三元组.
                 Daruna 等人  [35] 提出的  CKGE  模型应用了连续学习策略进行动态知识图谱嵌入. Wu             等人  [36] 提出了上下文感知的
                 动态知识图谱嵌入模型        DKGE, 实现了子图嵌入在线更新. 另一方面, 将实例图谱中存在的实体描述文本信息与实
                 体关系图结构信息相结合, 用于提升实例图谱知识表示学习的效果, 成为当前的又一研究趋势. 例如, 姚思雨等
                 人  [37] 利用卷积神经网络同时对实例图谱结构信息和文本信息进行建模, 在链接预测任务上表现出不俗的性能. 随
                 着近年来预训练语言模型         (pretrained language model, PLM) 和大型语言模型  (large language model, LLM) 的快速
                 发展, 其强大的上下文理解能力与文本编码能力得到了充分展现, 国内外学者开始研究将                            PLM  和  LLM  引入知识
                 表示学习领域. 例如, Nayyeri 等人    [38] 提出了融合多类型结构化知识和文本信息的统一框架. Xiao              等人  [39] 提出了融
                 合实体邻接信息及描述信息的知识表示学习模型. 宁原隆等人                     [40] 提出了融合关系路径与实体描述信息的知识图
                 谱表示学习方法. BERT-PKE     [41] 将  BERT  预训练模型作为语义解析器, 实现了实体和关系描述文本在知识表示学
                 习任务中的有效利用. 另外, KG-LLM       [42] 通过微调大语言模型实现了多跳链接预测, Yao           等人  [43] 将大语言模型应用
                 于知识图谱补全. 然而, 上述工作均面向实体关系简单陈述的实例知识图谱, 尚无法实现语义模式层概念、对象/
                 数据属性及其全称量词、存在量词等复杂公理约束的知识表示学习.
                  1.2   面向本体语义图谱的知识表示学习
                    本体语义图谱在       RDF  三元组的实例关系断言声明的基础上, 采用             RDFS、OWL   等不同语义表达能力的本体
                 建模, 实现概念、属性及其公理约束的形式化定义, 形成涵盖语义模式层和实例层的复杂知识图谱. 国内外学者已
   260   261   262   263   264   265   266   267   268   269   270