Page 307 - 《软件学报》2025年第9期

P. 307

4218 软件学报 2025 年第 36 卷第 9 期

(1) 建模隐式关系异常困难. 实验结果表明, 所有的方法在隐式数据集上的性能都显著低于在显式数据集上的
性能. 例如, 对于传统 PVG 方法中性能最好的 QRNet, 隐式数据集比显式数据集 R@1 的平均结果降低了 11.87%
(p-value<0.01); 对于 ICM 方法, 隐式数据集比显式数据集 R@1 的平均结果降低了 10.73% (p-value<0.01). 这表明
相较于显式关系, 有效建模隐式关系是异常困难的.
(2) 对比所有传统的 PVG 方法, 本文的 ICM 方法在隐式数据集上的性能提升显著 (如对比现阶段 PVG 方法
中性能最好的 QRNet, ICM 在验证集和测试集上 R@1 的平均结果提升了 5.71% (p-value<0.01)). 这表明相较于传
统的 PVG 方法, 本文所提的 ICM 方法可以有效地建模隐式短语-区域关系. 同时, 在显式数据集上, 相较于 QRNet
方法, ICM 在验证集和测试集上 R@1 的平均结果提升了 4.57% (p-value<0.01); 在原始数据集的测试集上, 相较于
QRNet, ICM 的 R@1 结果提升了 0.72% (p-value<0.05). 这表明 ICM 既缓解了建模隐式关系时会被浅层语义混淆
的问题, 又可以保持对显式关系的建模能力. 此外, 值得注意的是, ICM 在原始数据集上的提升相较于隐式和显式
数据集较小. 本文分析主要是由于原始数据集中错误与冗余的数据造成的, 如第 4.1 节隐式数据集构建部分所述.
而 ICM 在本文标注的隐式与显式数据集上提升显著更能验证我们方法的有效性. 这一定程度上也反映了数据质
量对于评价模型的公平性与重要性.

4.5 实验分析

(1) ICA 模块的有效性
本节设计了针对 ICM 方法中核心模块 ICA 的有效性分析实验, 进一步验证了因果干预中的前门调整策略在
缓解浅层语义带来的混淆上的有效性. 从表 1 的实验结果可以看出: 相较于 ICM 的结果, ICM w/o ICA 的结果在
隐式数据集, 显式数据集和原始数据集上 R@1 的平均结果分别下降了 3.3% (p-value<0.05), 2.39% (p-value<0.05)
和 3.09% (p-value<0.05). 这说明了在不使用前门调整策略时, ICM 对于隐式关系的建模能力会显著下降, 进一步
验证了 ICA 模块可以有效建模隐式关系, 并鼓励我们使用因果干预策略来缓解混杂偏差.
(2) ICM 方法与大规模全监督预训练模型对比
图 5 展示了 ICM 方法与大规模全监督预训练模型 MDETR 和 GLIP 在训练数据量, 模型大小以及在隐式和显
式数据集测试集上的结果对比. 从图 5 中可以看出, 本文 ICM 方法的训练数据量远小于 MDETR 和 GLIP, 其中
ICM 的训练数据量为 15 万条图像-文本对, MDETR 的训练数据量为 130 万条图像-文本对, GLIP 的训练数据量为
2 700 万条图像-文本对. 对比 ICM 与 MDETR 的结果可以发现, 即使 MDETR 使用了包含 Flickr30k Entities 在内
的 130 万条训练数据, 本文的 ICM 方法在仅使用 15 万条训练数据的情况下, 可以在隐式和显式数据集上取得与
MDETR 非常接近的性能. 此外, GLIP 相较于 ICM 方法可以取得更优的性能. 这是合理的, 因为 GLIP 使用了包含
Flickr30k Entities 在内的 2 700 万条训练数据, 在 64 张 V100 的硬件条件下进行训练, 而本文的 ICM 方法仅使用
了 15 万条训练数据在 2 张 A100 的硬件条件下训练. 上述对 MDETR, GLIP 以及本文 ICM 这 3 种方法的分析验
证了 ICM 方法的潜力, 启发我们下一步工作可引入更多的数据并投入更多的计算资源提升方法的性能.
(3) ICM 方法与自监督预训练多模态大语言模型对比
图 6 展示了 MiniGPT-4 和 LLaVA 两个自监督预训练的多模态大语言模型在隐式和显式数据集测试集上
的 zero-shot 和 in-context learning 结果以及 ICM 方法的 R@1 结果对比. 由于 MiniGPT-4 和 LLaVA 并没有针对
PVG 任务进行测试的代码, 所以本文在测试集中随机选取了 30 对含有隐式和显式关系的图像-文本对, 采用大模
型常用的两种性能评价方法进行测试并汇报 R@1 的结果: 1) zero-shot (ZS). 遵循 Bang 等人 [50] 提出的评估大模型
的 zero-shot 设置, 本文给定一段任务定义以及图像-文本对, 对给定的短语, 我们要求 MLLM “generate a bounding
box for the given phrase”. 2) in-context learning (ICL). 遵循 Dong 等人 [51] 提出的评估大模型的 ICL 设置, 我们在 ZS
设定的基础上给定几个短语-区域的例子“phrase, box;…; phrase, box”作为提示, 同样让模型生成给定短语对应的
区域框. 对于 ZS 和 ICL 生成的区域框, 我们将其与图像中标注的区域框进行 IoU 计算, 得到 R@1 的结果. 如图 6
所示, 相较于 MiniGPT-4 和 LLaVA, ICM 的性能均远超它们. 这表明现有的基于图像-文本对训练的多模态大语言
模型在文本上缺乏理解深层语义的能力, 在图像上缺乏理解细粒度图像的能力. 此外, 我们还发现, ZS 的性能高

302 303 304 305 306 307 308 309 310 311 312