Page 192 - 《软件学报》2025年第4期
P. 192

1598                                                       软件学报  2025  年第  36  卷第  4  期


                 MKGformer 在  MRR  指标上提升  1.7%, 在  Hit@10  指标上提升  3.3%. 而在  WN9  数据集上, 本文提出的方法相较于
                 表现最好的基准方法        MANS-T  在  MRR  指标上有  33.3%  的大幅度提升, 在   Hit@10  指标上也提升了    3.5%. 而这主
                 要归结于我们的方法能够有效利用多模态特征编码器中隐藏的先验任务知识和知识图谱中三元组之间的结构信息.

                                          表 3 本文方法与其他基准方法的对比实验结果

                                                     FB15k-237                         WN9
                   信息类型         方法
                                          Hit@1   Hit@3   Hit@10   MRR    Hit@1   Hit@3   Hit@10   MRR
                               TransE [6]  0.198 *  0.376 *  0.441 *  -    0.861   0.904   0.920   0.886
                              DistMult [7]  0.205  0.310  0.442    0.284   0.538   0.875   0.900   0.708
                   结构信息       ComplEx [8]  0.209  0.312   0.442    0.287   0.900   0.904   0.911   0.903
                              ConvE [14]  0.233   0.354   0.499    0.321   0.900   0.906   0.912   0.904
                              RGCN [21]   0.153 *  0.258 *  0.414 *  0.248 *  0.864  0.906  0.914  0.886
                             KG-BERT [9]   -       -      0.420 *   -      0.136   0.285   0.560   0.262
                              RSME [10]   0.242 *  0.344 *  0.467 *  -      -       -       -       -
                    (5) 不同的聚合算子会对模型性能产生怎样的影响? (第
                            VisualBERT [38]  0.243  0.356  0.497   0.327   0.484   0.651   0.773   0.588
                             ViLBERT [39]  0.233 *  0.335 *  0.457 *  -     -       -       -       -
                             MKGformer [16]  0.256  0.369  0.506   0.340   0.426   0.644   0.828   0.562
                   模态信息       MANS-S [17]  0.151  0.283   0.448    0.249   0.208   0.786   0.875   0.503
                              MANS-T [17]  0.174  0.297   0.446    0.265   0.348   0.804   0.891   0.581
                             MANS-H [17]  0.184   0.310   0.460    0.276   0.236   0.831   0.899   0.534
                             MANS-A [17]  0.184   0.311   0.463    0.277   0.216   0.824   0.906   0.523
                                          0.265   0.389   0.538    0.356   0.908   0.915   0.926   0.914
                              Ours w/GRU
                              Ours w/LSTM  0.266  0.389   0.539    0.357   0.906   0.915   0.926   0.913
                 注:*表示此项数据来自于MKGformer     [16]

                    综上所述, 本文提出的方法能够更好地利用多模态信息增强实体的表征能力, 有效提升模型在多模态知识图
                 谱补全任务中的表现.

                 4   分析与讨论
                    为了验证方法中不同模块的有效性, 本节主要进行                7  个消融实验, 来研究以下几个问题.
                    (1) 相较于使用不经过微调的通用文本和图像编码器所抽取的描述文本和图像特征, 使用融合任务知识的编
                 码器进行特征抽取能否获得更好的预测效果? (第               4.1  节)
                    (2) 模态过滤融合模块的使用与否是否会造成模型性能的差异? (第                   4.2  节)
                    (3) 考虑到  RNN  本身是一种基于序列的结构, 3        种模态过滤融合的顺序是否对模型性能产生影响? (第                 4.3  节)
                    (4) 模态过滤融合模块的深度是否会对性能产生影响? (第                4.4  节)
                                                               4.5  节)
                    (6) 不同的解码器会对模型性能产生怎样的影响? (第              4.6  节)
                    (7) 图卷积神经网络的深度是否对性能产生影响? (第              4.7  节)

                 4.1   任务知识融合模块的影响
                    为了验证特定任务知识融合模块的有效性, 本文使用                  VGG16 [40] 、ResNet50 [41] 、ResNet101 [41] 、ResNet152 [41]
                 和  Vision Transformer (ViT) [42] 这  5  个图像编码器抽取实体相关联的图像特征. 使用   BERT [43] 文本编码器抽取实体
                 相关联的文本特征. 结果如表         4  所示, 我们可以观察到使用通用的图像编码器和文本编码器会造成模型明显的性
                 能损失. 这主要是因为通用的模态信息编码器产生的特征编码不能很好地适应多模态知识图谱补全任务的特点,
                 无法利用任务知识来增强模态信息的表征能力, 进而表明本文提出的任务知识融合模块的必要性.
   187   188   189   190   191   192   193   194   195   196   197