Page 286 - 《软件学报》2025年第12期
P. 286

杨建喜 等: 多语义视图驱动的        OWL  知识图谱表示学习方法                                          5667


                    从实验结果可知, 由于       MSV-KRL  能够适配多种语言模型, 其能够利用面向多种语言的                 PLMs 实现对实体和
                 属性的编码, 在    2  个  OWL  图谱中的绝大多数任务上, 均取得了最佳性能. 与            MSV-KRL  相比, 虽然  OWL2Vec*方
                 法使用的    Word2Vec  编码器也能获取多语言特征表示, 但其初始设计目标并不针对多语言                       OWL  图谱, 因此在
                 IB2M  和  DBpedia-20k  上性能表现有待提升.
                  3.3.5    实体嵌入可视化分析
                    为了进一步探究      MSV-KRL  实体嵌入的效果, 本文参照        OWL2Vec* [26] 与  InME/CoME [47] 中的可视化实验方法,
                 利用  t-SNE [69] 对  HeLis 和  FoodOn  中部分类以及类的实例进行可视化. 其中, 本文以      HeLis 中的  Histidine、Oleic
                 Acid、Recipe Food  和  Monounsaturated Lipid  以及它们的实例为例, 分别使用  OWL2Vec*方法以及    MSV-KRL  获
                 取嵌入表示, 最后通过       t-SNE  进行可视化, 结果如图      4  所示. 此外, 本文以   FoodOn  中的  SFP (spice or flavor-
                 producing plant)、FSC (27920-firm/semi-hard cheese (gouda and edam type) (efsa foodex2))、CFF (codex alimentarius
                 food additive functional class) 以及  Obsolete Class 这  4  个类的所有子类为例进行可视化, 结果如图  5  所示.

                    Histidine Oleic acid  Recipe food  Monounsaturated lipid  SFP  FSC  Obsolete class  CFF








                        (a) OWL2Vec*     (b) MSV-KRL BERT             (a) OWL2Vec*    (b) MSV-KRL BERT










                   (c) MSV-KRL BiomedBERT  (d) MSV-KRL LLaMA-2-7B  (c) MSV-KRL BiomedBERT  (d) MSV-KRL LLaMA-2-7B
                     图 4    利用  t-SNE  对  HeLis 中类的实例嵌入          图 5    利用  t-SNE  对  FoodOn  中类的类层级关系
                                 进行可视化                                       嵌入进行可视化

                    通过图   4  可以发现, OWL2Vec*中除     Histidine  类的实例较为聚集外, 其他     3  个类分散情况较为严重, 且除
                 Recipe Food  类之外其余各类均存在个别离散点. 与          OWL2Vec*相比, 以   BERT  和  BiomedBERT  为编码模型的
                 MSV-KRL  方法中则不存在离散情况, 各个分散簇相比              OWL2Vec*更加聚集, 彼此之间联系更紧密. 此外, 虽然
                 LLaMA-2-7B  在  HeLis 本体各任务上性能表现较为优异, 但由于未对其进行自监督进阶训练, 通过它获取的实例
                 嵌入分散情况十分严重. 通过图          5  中可以发现, OWL2Vec*中类嵌入除       CFF  的子类聚集效果较好之外, 其余类的
                 子类都成条状分布, 较为分散. 与图          4  表现的结果相反, MSV-KRL      中  LLaMA-2-7B  与  BERT  的表现均比较好,
                 BiomedBERT  的聚类情况反而在测试中表现一般, 例如            SFP  的子类将  FSC  的子类包围了起来, 但原本两者联系并
                 不大. 综上, 本文所提以     BERT  模型为编码器的     MSV-KRL  方法能够有效学习概念与实例的嵌入, 同时准确理解如
                 公理、文本等多种语义信息.
                    从整体上看, 图     5  中  FoodOn  各类与其子类的分散程度相比较于图          4  中  HeLis 各类与其实例之间更加分散,
                 这是因为   FoodOn  本体比  HeLis 本体拥有更多的实体数量以及更加复杂的公理信息, 部分也是由于                     HeLis 中实例
                 标注信息与其所属类的标注信息非常相似. 具体来看, 图                 4  中  OWL2Vec*方法对应的   Oleic Acid、Recipe Food  以
                 及  Monounsaturated Lipid  这  3  个类的实例相比较与  MSV-KRL  的更加分散, 这是因为不同于       OWL2Vec*在完整
                 RDF  图上展开随机游走以及在单任务上展开训练与预测, MSV-KRL                 的多语义视图划分通过分割概念层与语义层
   281   282   283   284   285   286   287   288   289   290   291