Page 266 - 《软件学报》2025年第12期
P. 266

杨建喜 等: 多语义视图驱动的        OWL  知识图谱表示学习方法                                          5647


                 开展较多的面向本体语义图谱的知识表示学习相关研究.
                    为实现本体语义知识图谱解析并使其适配于文本序列编码器或图编码模型, 现有方法通常采用                                 W3C  定义的
                 映射规则   [44] 将  OWL  图谱映射为基于  RDF  格式的三元组集合, 但在涉及到复杂公理时这种基础映射方式存在部
                 分空白节点, 造成映射结果丢失部分语义信息, 或者在映射过程中会生成冗余部分. 为克服上述不足, 业界提出了
                 多种优化方式, 例如      Onto2Graph [45] 、DL2Vec [46] 以及  OWL2Vec* [26] 等.
                                                                                      [25]
                    近年来, 业界提出了一些针对语义模式层本体的知识表示学习方法. 例如, BERTSubs                        提出单类、深度优先
                 及广度优先这     3  种方式获取类层级关系的层次信息, 并利用            BERT  预训练语言模型对描述文本进行编码. Shiraishi
                 等人  [47] 提出  Inverted-index  矩阵嵌入和  Co-occurrence 矩阵嵌入分别获取公理中每一个词的全局和局部信息, 并通
                 过自编码器进行压缩, 但是该方法无法处理存在量词等复杂公理. ONTOLAMA                      [48] 通过语言模型实现   OWL  图谱类
                 层级关系的推理, 能够同时实现原子概念以及复杂概念的类层级关系推理. 为了弥补仅使用描述文本表示概念语
                 义能力的不足, Shi 等人    [49] 通过引入概念的实例以增强其知识表示能力, 实现类层级关系推理. 由于                    OWL  图谱中
                 的类层级关系通过       RDFS  语义进行定义, 因此这类方法虽然采用了               OWL  图谱中的部分信息, 但仍属于面向
                 RDFS  语义的知识表示学习范畴. 同时, 上述方法并没有考虑实例层信息, 学习到的类嵌入包含的语义信息不足.
                                                                                       2
                 最近一些工作重点关注于         OWL  语义图谱中基于描述逻辑的公理信息知识嵌入. 例如, Box EL                [23] 面向存在量化逻
                 辑  (existential quantification logic, EL), 利用  Box  嵌入的方式表示概念以及角色, 实例则为其中的一个点, 通过碰撞
                 机制对关系进行建模. CatE      [24] 是一种面向  ALC  描述逻辑的知识表示学习方法. 然而, 上述现有方法忽略了                 OWL
                 语义图谱中丰富的标注属性信息、关系层次信息以及实例层语义信息.
                    融合语义模式层与实例层的知识表示学习成为近年来的研究热点. JOIE                     [50] 利用跨视图关联模型桥接语义模式
                 层实体和实例层实体, 并通过内视图模型分别在两个独立的空间中建模类和实例的结构信息. DGS                              [51] 利用非欧几
                 里得几何空间的球面空间和双曲空间分别建模类及实例, 通过空间交汇桥接概念和实例视图, 实现概念和实例知
                 识的联合嵌入表示. Concept2Box    [52] 利用  Box  嵌入对类和实例进行建模, 并提出向量到         Box  的距离计算方法用以
                 桥接概念和实例实体. TransO      [22] 在翻译距离模型的基础上进行优化, 在对三元组结构建模时融入                  RDFS  图谱类之
                 间的层次信息     (subClassOf) 以及关系的层次信息     (subPropertyOf), 并依据相关公理进行了推理, 实现语义模式层信
                 息融合的知识表示学习. 在图表示学习领域也存在类似的方法, MV-HGSL                    [53] 通过元路径图和相似度图进行对比学
                 习实现对异质图结构的学习. 然而, 上述方法着重于               RDFS  语义模式与实例层信息的交互, 同时仅通过几何空间学
                 习到的概念与实例层之间的联系并不完全, 而且难以利用                   OWL  图谱中丰富的对象、数据和标注属性信息. RDFS
                 相对于   OWL  的表示能力有限, 面向复杂       OWL  语义公理的表示学习能力仍有待提升.
                               [54]                [55]
                    EL embedding  和  Quantum embedding  是两种端到端的   OWL  语义图谱表示学习方法. 这两种方法通过将
                 逻辑关系转换成几何关系来构建打分函数和损失函数. 但这两种方法只利用到了类实例以及类属性这两种关系,
                 且依然没有引入      OWL  图谱中的文本属性信息. Onto2Vec      [56] 以及  OPA2Vec [57] 这两种方法通过构建公理语料库, 然
                 后利用   Word2Vec 词嵌入模型学习实体及属性的嵌入. OPA2Vec 在            Onto2Vec 方法的基础上利用了      OWL  图谱中
                 的词汇信息. 然而, 这两种方法将单个公理视为一个序列, 难以捕捉                   OWL  中的图结构信息. OWL2Vec*      [26] 在前两
                 种方法基础上通过随机游走获取到公理之间的联系, 同时在使用了                       rdfs : comment  标注属性基础上增加了更多的
                             rdfs : label. 然而, OWL2Vec*在整个  OWL  图谱结构或本体映射后的      RDF  图谱上采用随机游走难
                 标注属性, 比如
                 以有针对性地捕捉具有高度语义相关性的子图信息, 且其基于                    Word2Vec 的  URI 嵌入和词嵌入表示方式对上下文
                 的特征建模能力较弱. 另外, OWL2Vec*方法在对象属性的复杂定义域                  (domain) 和值域  (range) 关系解析方面存在
                 不足, 使得面向复杂语义公理的知识表示能力仍有待提升.

                  2   MSV-KRL  方法

                    本节首先对问题进行描述定义, 其次介绍本文所提                MSV-KRL  的总体架构, 并具体介绍关键模块.
                  2.1   问题定义
                    OWL  语义图谱形式化定义为        O = {C,R,I,D,L}, 其中  C  和   分别表示原子概念  (concept) 集合和实例  (instance
                                                                 I
   261   262   263   264   265   266   267   268   269   270   271