Page 308 - 《软件学报》2025年第9期

P. 308

赵嘉宁等: 提升隐式场景下短语视觉定位的因果建模方法 4219

[6]
于 ICL 的性能, 原因在于 MiniGPT-4 和 LLaVA 分别使用 BLIP-2 [49] 和 CLIP 作为图像编码模型, 而论文中已经说
明它们并没有 ICL 的能力 [6,49] .
(4) 隐式案例分析
为了更直观地验证本文 ICM 方法在预测隐式短语-区域对齐关系方面的有效性, 本文从标注的隐式数据集的
4 种隐式关系中各随机选取了 1 个样本进行分析, 如图 7 所示. 图 7 中, (a1), (b1), (c1), (d1) 代表隐式短语所对应区
域的真实边界框 (图像中的红色框); (a2), (b2), (c2), (d2) 代表 QRNet 方法的预测结果 (图像中的黄色框); (a3), (b3),
(c3), (d3) 代表 ICM 方法的预测结果 (图像中的白色框). 从图 7 中可以发现, 在面对含有隐式关系的短语-区域对
时, QRNet 预测的结果相较于短语所对应的真实区域存在较大偏差, 而 ICM 的预测结果通常可以正确对齐隐式短
语所对应的图像区域. 图 7(a) 中, QRNet 对“支持”的预测为包含人的区域, 而 ICM 的预测为仅包含人举着标语的
区域; 图 7(b) 中, QRNet 对“还有三个人”的预测区域为中心两个人喂羊的区域, 而 ICM 可以准确预测该短语对应
区域为图像左下角的旁边 3 个人所在区域; 图 7(c) 中, QRNet 对“旁边还有一名男子”的预测区域为两人中间的区
域, ICM 则可以做出正确的预测; 图 7(d) 中, QRNet 对“其中三位”的预测区域为图像中随机的 3 个区域, 并不是正
在编织的 3 个人, ICM 的预测区域则为正在编织的 3 个人所对应的正确区域. 这再次验证了本文所提的 ICM 方法
在预测隐式短语-区域对齐关系上的有效性.

一男一女高举标语, 来支持迈克-赫卡比的竞选活动. 两个人在田野里喂羊, 旁边有一只狗, 还有三个人看
着他们.

(a1) Ground-truth (a2) QRNet (a3) ICM (b1) Ground-truth (b2) QRNet (b3) ICM
(a) 常识性理解 (b) 上下文理解

一名男子正在弹吉他, 旁边还有一名男子戴着面具餐桌上坐着六位女士, 其中三位正在编织.
坐在一辆绿色小车后面.

(c1) Ground-truth (c2) QRNet (c3) ICM (d1) Ground-truth (d2) QRNet (d3) ICM
(c) 空间关系理解 (d) 数值信息理解
图 7 QRNet 和 ICM 对 4 种隐式关系的预测结果对比

5 总结

本文针对短语视觉定位 (PVG) 任务中的隐式短语-区域对齐关系进行了研究. 通过分析已有的 PVG 数据集,
本文发现了其中存在的隐式短语-区域对齐关系问题, 并总结了 4 种隐式关系, 构建了一个面向隐式场景的数据集.
然而有效建模这种隐式关系异常困难, 已有的传统 PVG 方法无论是两阶段方法还是单阶段方法, 都将重心放在如
何学习文本短语和图片区域之间的关联上, 忽视了短语和区域间的隐式对齐关系问题, 预测结果常会被一些浅层
语义所混淆. 本文分析认为, 有效建模隐式关系需要引入因果干预方法来缓解浅层语义带来的混淆问题, 并为 PVG
任务提出了一种隐式增强的因果建模短语视觉定位方法 ICM, 其通过使用因果推理中的前门调整策略来有效地

303 304 305 306 307 308 309 310 311 312 313