Page 307 - 《软件学报》2025年第9期
P. 307

4218                                                       软件学报  2025  年第  36  卷第  9  期


                    (1) 建模隐式关系异常困难. 实验结果表明, 所有的方法在隐式数据集上的性能都显著低于在显式数据集上的
                 性能. 例如, 对于传统     PVG  方法中性能最好的      QRNet, 隐式数据集比显式数据集        R@1  的平均结果降低了       11.87%
                 (p-value<0.01); 对于  ICM  方法, 隐式数据集比显式数据集     R@1  的平均结果降低了      10.73% (p-value<0.01). 这表明
                 相较于显式关系, 有效建模隐式关系是异常困难的.
                    (2) 对比所有传统的     PVG  方法, 本文的   ICM  方法在隐式数据集上的性能提升显著            (如对比现阶段      PVG  方法
                 中性能最好的     QRNet, ICM  在验证集和测试集上      R@1  的平均结果提升了      5.71% (p-value<0.01)). 这表明相较于传
                 统的  PVG  方法, 本文所提的    ICM  方法可以有效地建模隐式短语-区域关系. 同时, 在显式数据集上, 相较于                   QRNet
                 方法, ICM  在验证集和测试集上       R@1  的平均结果提升了      4.57% (p-value<0.01); 在原始数据集的测试集上, 相较于
                 QRNet, ICM  的  R@1  结果提升了  0.72% (p-value<0.05). 这表明  ICM  既缓解了建模隐式关系时会被浅层语义混淆
                 的问题, 又可以保持对显式关系的建模能力. 此外, 值得注意的是, ICM                  在原始数据集上的提升相较于隐式和显式
                 数据集较小. 本文分析主要是由于原始数据集中错误与冗余的数据造成的, 如第                         4.1  节隐式数据集构建部分所述.
                 而  ICM  在本文标注的隐式与显式数据集上提升显著更能验证我们方法的有效性. 这一定程度上也反映了数据质
                 量对于评价模型的公平性与重要性.

                 4.5   实验分析

                    (1) ICA  模块的有效性
                    本节设计了针对       ICM  方法中核心模块     ICA  的有效性分析实验, 进一步验证了因果干预中的前门调整策略在
                 缓解浅层语义带来的混淆上的有效性. 从表              1  的实验结果可以看出: 相较于        ICM  的结果, ICM w/o ICA  的结果在
                 隐式数据集, 显式数据集和原始数据集上             R@1  的平均结果分别下降了        3.3% (p-value<0.05), 2.39% (p-value<0.05)
                 和  3.09% (p-value<0.05). 这说明了在不使用前门调整策略时, ICM       对于隐式关系的建模能力会显著下降, 进一步
                 验证了   ICA  模块可以有效建模隐式关系, 并鼓励我们使用因果干预策略来缓解混杂偏差.
                    (2) ICM  方法与大规模全监督预训练模型对比
                    图  5  展示了  ICM  方法与大规模全监督预训练模型         MDETR  和  GLIP  在训练数据量, 模型大小以及在隐式和显
                 式数据集测试集上的结果对比. 从图            5  中可以看出, 本文    ICM  方法的训练数据量远小于        MDETR  和  GLIP, 其中
                 ICM  的训练数据量为     15  万条图像-文本对, MDETR    的训练数据量为      130  万条图像-文本对, GLIP   的训练数据量为
                 2 700  万条图像-文本对. 对比    ICM  与  MDETR  的结果可以发现, 即使    MDETR  使用了包含     Flickr30k Entities 在内
                 的  130  万条训练数据, 本文的    ICM  方法在仅使用    15  万条训练数据的情况下, 可以在隐式和显式数据集上取得与
                 MDETR  非常接近的性能. 此外, GLIP     相较于   ICM  方法可以取得更优的性能. 这是合理的, 因为            GLIP  使用了包含
                 Flickr30k Entities 在内的  2 700  万条训练数据, 在  64  张  V100  的硬件条件下进行训练, 而本文的   ICM  方法仅使用
                 了  15  万条训练数据在    2  张  A100  的硬件条件下训练. 上述对    MDETR, GLIP  以及本文   ICM  这  3  种方法的分析验
                 证了  ICM  方法的潜力, 启发我们下一步工作可引入更多的数据并投入更多的计算资源提升方法的性能.
                    (3) ICM  方法与自监督预训练多模态大语言模型对比
                    图  6  展示了  MiniGPT-4  和  LLaVA  两个自监督预训练的多模态大语言模型在隐式和显式数据集测试集上
                 的  zero-shot 和  in-context learning  结果以及  ICM  方法的  R@1  结果对比. 由于  MiniGPT-4  和  LLaVA  并没有针对
                 PVG  任务进行测试的代码, 所以本文在测试集中随机选取了                 30  对含有隐式和显式关系的图像-文本对, 采用大模
                 型常用的两种性能评价方法进行测试并汇报                R@1  的结果: 1) zero-shot (ZS). 遵循  Bang  等人  [50] 提出的评估大模型
                 的  zero-shot 设置, 本文给定一段任务定义以及图像-文本对, 对给定的短语, 我们要求                 MLLM “generate a bounding
                 box for the given phrase”. 2) in-context learning (ICL). 遵循  Dong  等人  [51] 提出的评估大模型的  ICL  设置, 我们在  ZS
                 设定的基础上给定几个短语-区域的例子“phrase, box;…; phrase, box”作为提示, 同样让模型生成给定短语对应的
                 区域框. 对于   ZS  和  ICL  生成的区域框, 我们将其与图像中标注的区域框进行              IoU  计算, 得到  R@1  的结果. 如图  6
                 所示, 相较于   MiniGPT-4  和  LLaVA, ICM  的性能均远超它们. 这表明现有的基于图像-文本对训练的多模态大语言
                 模型在文本上缺乏理解深层语义的能力, 在图像上缺乏理解细粒度图像的能力. 此外, 我们还发现, ZS                              的性能高
   302   303   304   305   306   307   308   309   310   311   312