Page 286 - 《软件学报》2025年第12期
P. 286
杨建喜 等: 多语义视图驱动的 OWL 知识图谱表示学习方法 5667
从实验结果可知, 由于 MSV-KRL 能够适配多种语言模型, 其能够利用面向多种语言的 PLMs 实现对实体和
属性的编码, 在 2 个 OWL 图谱中的绝大多数任务上, 均取得了最佳性能. 与 MSV-KRL 相比, 虽然 OWL2Vec*方
法使用的 Word2Vec 编码器也能获取多语言特征表示, 但其初始设计目标并不针对多语言 OWL 图谱, 因此在
IB2M 和 DBpedia-20k 上性能表现有待提升.
3.3.5 实体嵌入可视化分析
为了进一步探究 MSV-KRL 实体嵌入的效果, 本文参照 OWL2Vec* [26] 与 InME/CoME [47] 中的可视化实验方法,
利用 t-SNE [69] 对 HeLis 和 FoodOn 中部分类以及类的实例进行可视化. 其中, 本文以 HeLis 中的 Histidine、Oleic
Acid、Recipe Food 和 Monounsaturated Lipid 以及它们的实例为例, 分别使用 OWL2Vec*方法以及 MSV-KRL 获
取嵌入表示, 最后通过 t-SNE 进行可视化, 结果如图 4 所示. 此外, 本文以 FoodOn 中的 SFP (spice or flavor-
producing plant)、FSC (27920-firm/semi-hard cheese (gouda and edam type) (efsa foodex2))、CFF (codex alimentarius
food additive functional class) 以及 Obsolete Class 这 4 个类的所有子类为例进行可视化, 结果如图 5 所示.
Histidine Oleic acid Recipe food Monounsaturated lipid SFP FSC Obsolete class CFF
(a) OWL2Vec* (b) MSV-KRL BERT (a) OWL2Vec* (b) MSV-KRL BERT
(c) MSV-KRL BiomedBERT (d) MSV-KRL LLaMA-2-7B (c) MSV-KRL BiomedBERT (d) MSV-KRL LLaMA-2-7B
图 4 利用 t-SNE 对 HeLis 中类的实例嵌入 图 5 利用 t-SNE 对 FoodOn 中类的类层级关系
进行可视化 嵌入进行可视化
通过图 4 可以发现, OWL2Vec*中除 Histidine 类的实例较为聚集外, 其他 3 个类分散情况较为严重, 且除
Recipe Food 类之外其余各类均存在个别离散点. 与 OWL2Vec*相比, 以 BERT 和 BiomedBERT 为编码模型的
MSV-KRL 方法中则不存在离散情况, 各个分散簇相比 OWL2Vec*更加聚集, 彼此之间联系更紧密. 此外, 虽然
LLaMA-2-7B 在 HeLis 本体各任务上性能表现较为优异, 但由于未对其进行自监督进阶训练, 通过它获取的实例
嵌入分散情况十分严重. 通过图 5 中可以发现, OWL2Vec*中类嵌入除 CFF 的子类聚集效果较好之外, 其余类的
子类都成条状分布, 较为分散. 与图 4 表现的结果相反, MSV-KRL 中 LLaMA-2-7B 与 BERT 的表现均比较好,
BiomedBERT 的聚类情况反而在测试中表现一般, 例如 SFP 的子类将 FSC 的子类包围了起来, 但原本两者联系并
不大. 综上, 本文所提以 BERT 模型为编码器的 MSV-KRL 方法能够有效学习概念与实例的嵌入, 同时准确理解如
公理、文本等多种语义信息.
从整体上看, 图 5 中 FoodOn 各类与其子类的分散程度相比较于图 4 中 HeLis 各类与其实例之间更加分散,
这是因为 FoodOn 本体比 HeLis 本体拥有更多的实体数量以及更加复杂的公理信息, 部分也是由于 HeLis 中实例
标注信息与其所属类的标注信息非常相似. 具体来看, 图 4 中 OWL2Vec*方法对应的 Oleic Acid、Recipe Food 以
及 Monounsaturated Lipid 这 3 个类的实例相比较与 MSV-KRL 的更加分散, 这是因为不同于 OWL2Vec*在完整
RDF 图上展开随机游走以及在单任务上展开训练与预测, MSV-KRL 的多语义视图划分通过分割概念层与语义层

