Page 299 - 《软件学报》2025年第9期
P. 299
4210 软件学报 2025 年第 36 卷第 9 期
态特征融合 Transformer. 还有一些最新的基于 Transformer 的单阶段方法专注于对视觉编码器分支的改进, 并结
合多模态特征调整视觉特征. VLTVG [19] 使用视觉-语言验证模块调整视觉特征, 并使用语言引导的上下文编码器
聚合视觉上下文. QRNet [20] 通过查询感知动态注意力 (QD-ATT) 机制和查询感知多尺度融合来调整视觉特征. 随
着对比学习在多模态领域的应用, 以及多模态预训练的兴起, Kamath 等人 [7] 将 PVG 任务建模为一个调制检测任
务, 提出了一种源自 DETR 检测器的新型框架 MDETR, 并采用对比学习的思想设计了一个新的损失函数有效学
习短语和区域的对应关系. Li 等人 [8] 将目标检测任务和 PVG 任务联合预训练, 提出了 GLIP. GLIP 设计并使用了
一个基于对比学习思想的短语-区域对齐矩阵, 可以从目标检测数据中进行学习, 进而提升模型在处理 PVG 任务
时的性能.
尽管上述工作在 PVG 任务上取得了不错的进展, 但都没有关注到短语和区域间的隐式对齐关系问题, 而预测
这种关系可以有效评估模型深层多模态语义的理解能力. 本文考虑了 PVG 任务中的隐式对齐关系问题, 并标注了
一个隐式数据集用于评估模型深层多模态语义的理解能力.
1.2 因果推理
最近, 因果推理在场景图生成 [30] 、语义分割 [31] 、视觉问答任务 [32] 等多个领域应用广泛, 引起了研究者极大的
关注. Pearl 等人 [9] 将事物间的关系定义为 3 个层次: 关联、干预和反事实. 与传统的关联学习相比, 因果推理在减轻
伪相关性和解耦模型效应以实现更好的泛化性方面有很好的潜力. 本文主要关注于使用因果推理中的干预策略 [33,34] ,
以缓解模型在建模隐式关系时会被浅层语义所混淆的问题.
后门调整和前门调整是干预中两种常用的策略 [9] , 用以解决潜在的混杂因子的问题, 从而进一步解决关联
学习中的伪相关问题. 对于后门调整策略, Wang 等人 [35] 认为当训练和测试数据是独立同分布时, 混杂因素会欺
骗注意力机制来捕捉数据中有利于预测的伪相关性. 他们提出了一个基于后门调整策略的因果注意模块, 以无
监督的形式对混杂因素进行自我注释来缓解混杂因子的影响. Huang 等人 [36] 认为在视觉推理任务中, 混杂偏差
是制约任务性能的主要瓶颈, 并利用后门调整策略设计了一个参考表达去混杂方法来消除混杂偏差. 对于前门
调整策略, Yang 等人 [37] 使用前门调整策略设计了一种新的注意力机制 CATT, 用以消除现有基于注意力的视觉
语言模型中不断变化的混杂效应. CATT 遵循了传统注意力机制的 Q-K-V 设定, 可以替换 Transformer 中任意的
注意力模块.
受上述已有工作的启发, 本文将因果推理引入 PVG 任务中, 提出了一种新的隐式增强的因果建模短语视觉定
位方法. 该方法基于前门调整的策略, 设计了一个隐式感知的因果注意力模块 (ICA) 来缓解模型在预测隐式短语
对应区域时, 容易被其他浅层语义所混淆的问题.
2 PVG 任务的因果图
在介绍本文所提出的隐式增强的因果建模短语视觉定位方法前, 本文先概述了针对 PVG 任务构建的因果图.
在本节中, 首先简要介绍因果图中的各个变量以及它们之间的因果关系 (第 2.1 节); 然后介绍因果图中的前门路
径和后门路径, 并使用前门调整策略实现隐式感知的因果干预的过程 (第 2.2 节).
2.1 PVG 任务因果图的构建
本文针对 PVG 任务构建的因果图如图 2 所示, 其中 P 代表图像-文本对, F 代表多模态融合特征, B 代表短语-
p f b 分别代表 , ,
区域预测边界框, C 代表混杂因子. 本文中 , , P F B 的观测值.
P→F→B 表示从图像-文本对 P 到短语-区域预测边界框 B 的预期因果效应, 其中多模态融合特征 F 起到中介
作用. 在传统的 PVG 方法中, 模型首先分别提取图像和文本特征, 接着将图像特征和文本特征融合得到多模态融
合特征表示, 最后利用多模态融合特征预测文本中的短语在图像中的区域边界框.
B 的因果效应. 例如, 在图 1(c),
P←C→B 表示不可见的混杂因素 C 对图像-文本对 P 和短语-区域预测边界框
(d) 中, “支持”是具有深层语义的短语, 模型需要理解“举着手”的动作是一种表示“支持”的常识才能将其对齐到“人
们举着手”的区域. 而预测这种具有深层语义的短语所对应的区域时, 模型往往会被其他一些浅层语义所混淆. 如:

