Page 191 - 《软件学报》2025年第4期
P. 191
陈强 等: 融合任务知识的多模态知识图谱补全 1597
1, 否则为 0. K = 1,3,10 .
3.4 基准方法
为了验证基于融合任务知识的多模态知识图谱补全方法的有效性, 本文使用了以下几种最新的基准方法与之
进行比较.
[6]
k
(1) TransE . 该方法将实体向量和关系向量近似于一种向量运算关系 p+k ≈ q , 其中 p 为头实体向量, 为关
系向量, q 为尾实体向量.
[7]
(2) DistMult . 该方法使用对角矩阵来表示关系矩阵, 通过头实体向量、关系向量和尾实体向量三者的内积
来计算三元组的得分.
[8]
(3) ComplEx . 该方法首次将复数空间引入到知识图谱补全任务中, 将 DistMult 模型拓展到复数空间, 能够同
时解决对称和非对称关系.
(4) ConvE [14] . 该方法使用二维卷积网络在实体向量和关系向量上预测知识图谱中缺失的三元组.
(5) RGCN [21] . 该方法将图卷积网络应用到异构图中, 提出了一个异构图中多关系融合的方法.
[9]
(6) KG-BERT . 该方法于 2019 年提出了一个使用大规模预训练语言模型来融合实体上下文信息的知识图谱
效地利用多模态信息来提升知识图谱补全性能变得至关重要, 与我们的研究动机完全一致.
补全模型, 该模型将实体和关系拼接为序列, 将知识图谱补全任务转换为序列分类任务.
(7) RSME [10] . 该方法于 2021 年提出了一个通过门控机制自动过滤对任务无关的视觉信息的多模态知识图谱
补全模型, 该模型可以保留有效的视觉信息, 从而增强编码能力.
[38]
(8) VisualBERT . 该方法于 2019 年提出了一个单流的多模态表征模型, 依靠注意力机制将输入文本和图像对齐.
(9) ViLBERT [39] . 该方法于 2019 年提出了一个双流的多模态表征模型, 使用共同注意力 Transformer 层完成图
像和文本的交互.
(10) MKGformer [16] . 该方法于 2022 年提出了一个通用的多模态表征模型, 在 CLIP [24] 模型的基础上增加了跨
模态交互模块, 促进了文本信息和图像信息地充分融合. 然后利用掩码语言模型来对缺失实体的类型进行预测.
(11) MANS [17] . 该方法于 2023 年提出了一个模态已知的负采样模型来对齐结构信息和模态信息, 进而学习对
多模态知识图谱补全有价值的向量信息.
需要注意的是, 上述基准实验中的前 5 种方法都是基于结构向量独立完成知识图谱补全任务, 因此无法使用
文本模态信息和图像模态信息.
第 2 组剩余 6 种方法则是在结构信息的基础上增加了文本模态信息或者图像模态信息. 其中, KG-BERT 方法
只使用了文本模态信息, 其他 5 种方法则同时使用了文本模态信息和图像模态信息.
3.5 主实验分析
如表 3 所示, 在 FB15k-237 数据集和 WN9 数据集上, 本文比较了知识图谱补全领域 11 个基准方法的性能.
从表 3, 我们可以得出如下结论.
(1) 对于基准模型, 在数据集 FB15k-237 上, 基于结构信息的方法和基于模态信息的方法的性能不分伯仲: 就
Hit@1 和 Hit@3 而言, 基于结构信息的方法相对有优势, 特别是 TransE 模型. 而对于指标 Hit@10 和 MRR, 基于模
态信息的方法相对更好, 特别是 MKGformer 展现出绝对的优势. 另外, 在 WN9 数据集上, 基于结构信息的方法性
能明显强于基于模态信息的方法. 这主要因为该数据集规模较小, 比较依赖图谱中的结构信息. 这同时表明如何有
(2) 整体来讲, 本文所提出的融合任务知识的多模态知识图谱补全模型均优于 11 个基准方法, 这表明了本文
所提出方法的优越性. 具体而言,
1) 与结构向量信息的基准实验相比, 本文提出的方法相较于 5 个基准实验性能均有一定的提升. 同时, 相较于
使用 ConvE 的方法, 我们所提出方法的 MRR 指标在两个数据集上分别提高了 3.6% 和 1.0%. 而这主要归结于我
们的方法能够充分利用模态信息来获得较好的实体向量表示.
2) 与基于模态信息的基准实验相比, 在 FB15k-237 数据集上, 本文提出的方法相较于表现最好的基准方法