Page 266 - 《软件学报》2025年第12期

P. 266

杨建喜等: 多语义视图驱动的 OWL 知识图谱表示学习方法 5647

开展较多的面向本体语义图谱的知识表示学习相关研究.
为实现本体语义知识图谱解析并使其适配于文本序列编码器或图编码模型, 现有方法通常采用 W3C 定义的
映射规则 [44] 将 OWL 图谱映射为基于 RDF 格式的三元组集合, 但在涉及到复杂公理时这种基础映射方式存在部
分空白节点, 造成映射结果丢失部分语义信息, 或者在映射过程中会生成冗余部分. 为克服上述不足, 业界提出了
多种优化方式, 例如 Onto2Graph [45] 、DL2Vec [46] 以及 OWL2Vec* [26] 等.
[25]
近年来, 业界提出了一些针对语义模式层本体的知识表示学习方法. 例如, BERTSubs 提出单类、深度优先
及广度优先这 3 种方式获取类层级关系的层次信息, 并利用 BERT 预训练语言模型对描述文本进行编码. Shiraishi
等人 [47] 提出 Inverted-index 矩阵嵌入和 Co-occurrence 矩阵嵌入分别获取公理中每一个词的全局和局部信息, 并通
过自编码器进行压缩, 但是该方法无法处理存在量词等复杂公理. ONTOLAMA [48] 通过语言模型实现 OWL 图谱类
层级关系的推理, 能够同时实现原子概念以及复杂概念的类层级关系推理. 为了弥补仅使用描述文本表示概念语
义能力的不足, Shi 等人 [49] 通过引入概念的实例以增强其知识表示能力, 实现类层级关系推理. 由于 OWL 图谱中
的类层级关系通过 RDFS 语义进行定义, 因此这类方法虽然采用了 OWL 图谱中的部分信息, 但仍属于面向
RDFS 语义的知识表示学习范畴. 同时, 上述方法并没有考虑实例层信息, 学习到的类嵌入包含的语义信息不足.
2
最近一些工作重点关注于 OWL 语义图谱中基于描述逻辑的公理信息知识嵌入. 例如, Box EL [23] 面向存在量化逻
辑 (existential quantification logic, EL), 利用 Box 嵌入的方式表示概念以及角色, 实例则为其中的一个点, 通过碰撞
机制对关系进行建模. CatE [24] 是一种面向 ALC 描述逻辑的知识表示学习方法. 然而, 上述现有方法忽略了 OWL
语义图谱中丰富的标注属性信息、关系层次信息以及实例层语义信息.
融合语义模式层与实例层的知识表示学习成为近年来的研究热点. JOIE [50] 利用跨视图关联模型桥接语义模式
层实体和实例层实体, 并通过内视图模型分别在两个独立的空间中建模类和实例的结构信息. DGS [51] 利用非欧几
里得几何空间的球面空间和双曲空间分别建模类及实例, 通过空间交汇桥接概念和实例视图, 实现概念和实例知
识的联合嵌入表示. Concept2Box [52] 利用 Box 嵌入对类和实例进行建模, 并提出向量到 Box 的距离计算方法用以
桥接概念和实例实体. TransO [22] 在翻译距离模型的基础上进行优化, 在对三元组结构建模时融入 RDFS 图谱类之
间的层次信息 (subClassOf) 以及关系的层次信息 (subPropertyOf), 并依据相关公理进行了推理, 实现语义模式层信
息融合的知识表示学习. 在图表示学习领域也存在类似的方法, MV-HGSL [53] 通过元路径图和相似度图进行对比学
习实现对异质图结构的学习. 然而, 上述方法着重于 RDFS 语义模式与实例层信息的交互, 同时仅通过几何空间学
习到的概念与实例层之间的联系并不完全, 而且难以利用 OWL 图谱中丰富的对象、数据和标注属性信息. RDFS
相对于 OWL 的表示能力有限, 面向复杂 OWL 语义公理的表示学习能力仍有待提升.
[54] [55]
EL embedding 和 Quantum embedding 是两种端到端的 OWL 语义图谱表示学习方法. 这两种方法通过将
逻辑关系转换成几何关系来构建打分函数和损失函数. 但这两种方法只利用到了类实例以及类属性这两种关系,
且依然没有引入 OWL 图谱中的文本属性信息. Onto2Vec [56] 以及 OPA2Vec [57] 这两种方法通过构建公理语料库, 然
后利用 Word2Vec 词嵌入模型学习实体及属性的嵌入. OPA2Vec 在 Onto2Vec 方法的基础上利用了 OWL 图谱中
的词汇信息. 然而, 这两种方法将单个公理视为一个序列, 难以捕捉 OWL 中的图结构信息. OWL2Vec* [26] 在前两
种方法基础上通过随机游走获取到公理之间的联系, 同时在使用了 rdfs : comment 标注属性基础上增加了更多的
rdfs : label. 然而, OWL2Vec*在整个 OWL 图谱结构或本体映射后的 RDF 图谱上采用随机游走难
标注属性, 比如
以有针对性地捕捉具有高度语义相关性的子图信息, 且其基于 Word2Vec 的 URI 嵌入和词嵌入表示方式对上下文
的特征建模能力较弱. 另外, OWL2Vec*方法在对象属性的复杂定义域 (domain) 和值域 (range) 关系解析方面存在
不足, 使得面向复杂语义公理的知识表示能力仍有待提升.

2 MSV-KRL 方法

本节首先对问题进行描述定义, 其次介绍本文所提 MSV-KRL 的总体架构, 并具体介绍关键模块.
2.1 问题定义
OWL 语义图谱形式化定义为 O = {C,R,I,D,L}, 其中 C 和分别表示原子概念 (concept) 集合和实例 (instance
I

261 262 263 264 265 266 267 268 269 270 271