Page 264 - 《软件学报》2025年第12期
P. 264

杨建喜 等: 多语义视图驱动的        OWL  知识图谱表示学习方法                                          5645


                 Key words:  knowledge representation learning (KRL); OWL knowledge graph; multi-semantic view; post-training; multi-task learning

                    作为一种符号化的知识载体, 知识图谱             (knowledge graph, KG) 描述了现实世界中实体及其属性之间的语义关
                 联  [1,2] , 为智能问答  [3,4] 、推荐系统  [5,6] 等下游任务提供了知识表示基础. 目前, 知识图谱受到了大数据和人工智能研
                 究领域和产业界的广泛关注, 但业界尚未形成一种统一的定义. 本文根据语义表征能力的不同, 将知识图谱分为基
                                                           [7]
                 于资源描述框架      (resource description framework, RDF) 的实例图谱和基于  RDFS (RDF schema) [8,9] 或  OWL (Web
                 ontology language)  [10,11] 的本体语义图谱. 其中, RDF  实例图谱由描述实体对象及其属性之间简单语义关系的主谓
                 宾三元组构成, 是     FreeBase [12] 等通用大规模知识图谱的主要表征方式. RDFS         语义图谱在实例图谱的基础上引入
                 了概念、属性等语义模式, 能够对概念-实例关系及类层级关系等语义约束进行形式化定义. 基于描述逻辑的
                 OWL  语义图谱在    RDFS  语义基础上增加了类之间交集、并集等重要算子, 同时将属性细分为对象属性和数据属
                 性, 且为属性增加了逆关系等属性特性, 具有更强大的语义表示能力. OWL                     本体语义图谱在垂直领域知识表征方
                                                                                                      [14]
                                                                           [13]
                 面得到了广泛应用. 目前, 业界已提出了基于            OWL  的通用领域图谱     DBpedia , 以及面向医疗健康领域的        HeLis 、
                 FoodOn [15] 和生物信息领域的  GO [16] 等众多  OWL  语义图谱.
                    为实现符号化知识图谱信息在低维连续向量空间中的有效嵌入, 知识表示学习                            (knowledge representation
                 learning, KRL) 成为知识图谱研究领域中的重要新兴任务, 也是知识图谱补全或链接预测的基础                        [17,18] . 例如, 经典
                 的  TransE  算法  [19] 基于向量平移思想对三元组进行建模, 利用头、尾实体和关系的映射向量表达原图中的语义信
                 息和链接关系, 然而, TransE    仅能对简单实体关系进行向量化表征, 在编码一对多、多对一和多对多等复杂实体语
                 义关系时存在较大局限. 之后, 业界又相继提出了               TransG [20] 和  TransRD [21] 等多种改进方法, 尝试解决实例图谱中
                 复杂关系的语义向量表示、实体不对称等问题. 近年来, 融合本体语义信息的知识表示学习成为该方向研究的重
                 要趋势. 例如, TransO [22] 基于  RDFS  语义模式, 在知识嵌入过程中融入实例类型、子类、子属性以及属性的定义
                 域  (domain) 和值域范围  (range) 信息, 但仍缺乏概念、属性之间复杂语义公理的向量化知识表示能力. 一些方法针
                 对  OWL  图谱语义模式层中      EL  与  ALC  两种描述逻辑进行知识向量建模         [23,24] 或利用优先搜索算法获取类层级关
                 系  [25] , 但忽略了图谱实例层相关语义信息的有效结合. OWL2Vec*           [26] 面向  OWL  本体图谱的知识表示学习任务, 通
                 过  Word2Vec 模型在基于   OWL  语义构造的序列文本文档上进行训练, 实现了               OWL  语义模式层和实例层联合的
                 向量化知识嵌入. 然而, OWL2Vec*仍然难以有效处理复杂的概念术语层级语义关系, 在面向                         OWL  图谱语义模式
                 层和实例层信息融合的知识表示学习能力等方面仍有待提升.
                    为克服现有方法的复杂语义模式与实例信息联合嵌入表征不足这一问题, 本文提出一种新的多语义视图驱动
                 的  OWL  图谱知识表示学习方法       (multiple semantic views-based knowledge representation learning, MSV-KRL). 该方
                 法基于实体多语义空间联合认知思想, 即某一实体在多个语义空间中分别存在不同的嵌入表示, 而该实体的全量
                 知识表示是对应多空间嵌入的有效融合. 总体上, MSV-KRL                方法采用“多语义视图划分、语义感知进阶训练、多
                 任务联合表示学习”的三阶段递进式架构. 首先, 在多语义视图划分阶段, MSV-KRL                      在  OWL2Vec*本体映射方法
                 基础上进行改进, 并提出类层级关系视图、类属性关系视图、类实例关系视图、实例对象属性视图和实例数据属
                 性视图这    5  类细粒度子图划分策略, 构建概念-属性-实例在不同认知维度下的多语义视图. 在语义感知进阶训练
                 阶段, MSV-KRL  方法在各语义子图上进行随机游走, 并采用标注属性替换策略生成进阶训练数据, 实现                            OWL  语
                 义图谱中多种语义公理信息、对象/数据属性信息以及标注信息的充分利用. 然后, 采用自动构建的进阶训练数据
                 对预训练模型或大语言模型进行自监督训练微调, 使其适配于多语义视图上下文. 在多任务联合表示学习阶段,
                 MSV-KRL  在传统的类实例预测和类层级预测任务基础上, 引入类属性预测、实例对象属性预测以及实例数据属
                 性预测   3  种新的任务, 通过适配于多语义视图的联合表示学习提升针对                   OWL  语义图谱的语义模式层和实例层联
                 合向量表征能力. 本文的主要贡献可概括如下.
                    (1) 提出了一种   OWL  语义图谱概念-属性-实例细粒度语义感知的多语义视图划分策略, 以及基于该多语义视图
                 的进阶训练数据自动构建方法, 并通过自监督进阶训练微调模型参数, 实现面向多语义视图上下文的适配能力提升.
                    (2) 提出了包含类实例预测、类层级关系预测、类属性预测、实例对象属性预测和实例数据属性预测的多任
   259   260   261   262   263   264   265   266   267   268   269