Page 186 - 《软件学报》2025年第4期
P. 186
1592 软件学报 2025 年第 36 卷第 4 期
标 MRR (mean reciprocal rank) 上, 与基于结构特征的知识图谱补全方法中表现最优的方法 ConvE 相比, 我们方法
的性能在两个数据集上分别提升了 3.6% 和 1.0%; 在基于多模态特征的知识图谱补全方法中, 与在 FB15k-237 数
据集上表现最优的方法 MKGformer 和在 WN9 数据集上表现最优的方法 VisualBERT 相比, 我们的方法的性能分
别提升了 1.7% 和 32.6%.
综上所述, 本文的主要贡献总结如下.
(1) 探索了一种融合任务知识的多模态编码方式, 来适应多模态知识图谱补全任务中多模态向量表示.
(2) 提出一种基于循环神经网络的模态融合过滤方法, 来提纯对任务有效的不同模态的信息.
(3) 本文在两个公开的多模态知识图谱数据集上进行了实验. 实验结果表明本文提出的方法在多个指标上都
大幅优于基准方法.
本文第 1 节对知识图谱补全的相关工作进行概述, 并系统地介绍与之对应的计算方法. 第 2 节介绍本文构建
的融合任务知识的多模态知识图谱补全模型. 第 3 节通过主要的对比实验, 验证所提出的模型相比以前的研究工
作展现出明显的优势. 第 4 节给出进一步的分析与讨论, 来说明我们所提出方法的重要性和有效性. 第 5 节针对我
们的贡献, 总结全文.
[17]
1 相关工作
与本文的研究最相关的工作是基于结构信息的知识图谱向量表示和基于模态信息的知识图谱向量表示, 以及
图神经网络表示学习, 具体内容如下.
1.1 基于结构信息的知识图谱向量表示
近期, 研究者们提出了各种各样的知识图谱向量表示方法. 这些方法通过随机初始化实体和关系的结构向量,
利用知识图谱中事实三元组来得到实体和关系的最终向量表示. 根据实体和关系的交互方式, 这些方法大致可以
分为 3 种: 1) 基于距离 [6,13] 的方法. 此类方法通过比较实体和关系的距离来衡量事实三元组存在的合理性. 例如,
[6]
TransE 基于向量空间存在的平移不变性, 将实体和关系映射到同一向量空间中, 采用头实体向量和关系向量相加
的方式来为事实三元组打分. 2) 基于语义匹配 [7,8] 的方法. 此类方法通过匹配实体和关系的潜在语义关系来衡量事
[8]
实三元组存在的合理性. 例如, ComplEx 在复数空间中向量化实体和关系, 对反对称关系进行建模. 3) 基于卷积神
经网络 [14,15] 的方法. 此类方法通过卷积神经网络引入较少的参数来学习实体和关系深层次的特征, 对复杂关系进
行建模. 例如, ConvE [14] 首次使用二维卷积来完成知识图谱补全任务.
但是, 上述方法仅使用知识图谱的结构信息来得到实体和关系的向量表示, 几乎都忽略了知识图谱中与实体
相关的其他模态信息对实体和关系向量表示的影响.
1.2 基于模态信息的知识图谱向量表示
对于多模态知识图谱, 知识图谱中的其他模态信息, 包括以实体和关系描述为代表的文本信息和以实体图像为代
[9]
表的图像信息, 直观来说, 也需要被纳入考虑. 例如, KG-BERT 将三元组结构信息与文本描述信息视为一个序列, 将
知识图谱补全任务转化为一个序列分类任务. MKGformer [16] 在 KG-BERT 的基础上增加了实体的图像信息和文本图
像融合模块来进一步挖掘不同模态之间的有效信息, 并且使用掩码语言模型来预测缺失实体的类别. RSME [10] 则使用
3 个门控模块来去除无用的图像信息. 而 MANS 则通过探索不同的负样本采样方法来增强向量表示的鲁棒性.
但是, 这就面临两个问题: 一方面, 这些方法将知识图谱中的事实三元组独立为一个个样本, 并没有考虑到知
识图谱中事实三元组之间的网络结构, 在训练过程中并没有利用知识图谱中隐藏的结构信息. 另一方面, 它们大多
数使用通用型预训练模型来抽取文本和图像特征, 并利用一个线性网络将不同模态的特征映射到与结构信息相同
的向量表示空间, 而这样就缺少微调这一关键步骤, 忽略了与知识图谱补全任务相关知识的作用, 导致预抽取的多
模态特征可能并不能很好适应多模态知识图谱补全任务.
1.3 图卷积神经网络表示学习
随着深度学习技术的发展, 图卷积神经网络的关系型建模能力引起了越来越多的研究者的注意, 在许多领域