Page 300 - 《软件学报》2025年第9期

P. 300

赵嘉宁等: 提升隐式场景下短语视觉定位的因果建模方法 4211

“举着手”是人的一种特有动作, 模型可能会错误地将具有浅层语义的样本 (即短语“一男一女 (man and woman)”
和“一些人 (some people)”及其所在的区域) 与短语“支持”联系起来, 导致预测结果出现偏差. 本文中, 我们把这种
会干扰模型预测结果的因素称为混杂因素, 并且这种混杂因素是不可见的.

C 混杂因子 C 混杂因子
前门调整策略阻断的路径

P F B P F B

图像-文本对多模态融合特征预测的区域边界框图像-文本对多模态融合特征预测的区域边界框
(a) 传统PVG任务的因果图 (b) 消除混杂因子影响后的因果图
图 2 针对 PVG 任务构建的因果图

2.2 PVG 的前门调整策略
如果两个不相关的变量 P 和 B 在某个共因 C 的作用下产生了伪相关, 则共因 C 被称为“混杂因子”, 在因果图
中, 从 C 出发连接 P 和 B 的路径 P←C→B 称为 P 和 B 之间的“后门路径”. 相应地, P→B 即为“前门路径”. 若以 C
为条件可以阻断 P 和 B 之间所有的后门路径 (即 P 和 B 之间无法通过 C 联系起来), 并且 C 的全部数据可以通过观
测得到, 则这种调整策略被称为后门调整策略. 反之, 若 C 的数据无法收集, 同时 P 和 B 之间存在一个中介 F 满足:
1) F 阻断了所有 P 到 B 之间的路径; 2) P 到 F 之间没有未被阻断的路径; 3) F 到 B 之间的所有后门路径被 P 阻断,
则 F 满足 P 和 B 之间的前门准则. 此时, 以 P 为条件, F 为中介因素进行干预调整的策略被称为前门调整策略. 根
据第 2.1 节中的描述, 本文中的混杂因子 C 不可见, 同时 P 和 B 之间存在一个中介 F 满足前门准则. 因此, 本文采

用前门调整策略, 以 P 为条件来缓解模型在建模隐式关系时会被浅层语义所混淆的问题, 如图 2(b) 所示.
给定图像-文本对 P, PVG 任务的因果推理过程是根据文本短语最大化图像中与之相对齐的区域边界框 B 的
干预条件概率, 而这一概率并不等于观察条件概率, 即:

Pr(B = b | do(P = p)) , Pr(B = b | P = p) (1)
其中, do 操作表示通过干预 P = p 来实现 P 对 B 的因果效应, 在因果图中, do 操作将删除所有指向该变量的边. 如
图 2(b) 中的虚线所示, 在以 P 为条件时, 我们阻断了后门路径 F←P←C→B, 从而消除了混杂因子 C 对图像文本
对 P P→F→B 的因果效应:
的影响, 进而我们可以使用前门调整策略计算
∑ ∑
Pr(B = b | do(P = p)) = Pr(F = f | P = p) Pr(P = p)[Pr(B = b | P = p,F = f)] (2)
f p

3 隐式增强的因果建模短语视觉定位方法 (ICM)

本节将会详细介绍隐式增强的因果建模短语视觉定位方法 (ICM). 首先简要说明 PVG 的任务定义 (第
3.1 节); 然后描述图像和文本模态的特征编码过程 (第 3.2 节); 接着详细介绍隐式感知的因果注意力模块 ICA (第
3.3 节); 最后介绍针对 PVG 任务设计的隐式感知的优化模块 (第 3.4 节).
3.1 任务定义

,
给定一组包含 T 个图像-文本对的集合 (V,S ), 其中 V=[V 1 ,...,V i ,...,V T ] S =[S 1 ,...,S i ,...,S T ]. 每个文本 S i 包含
p 1 p n p
多个短语 s , 即 [s ,...,s ,...,s ] ∈ S i , 其中 n 代表文本中的短语个数. 每个短语 s 都指向图像 V i 中的一个或几个区
i
i
i
i
i
[
1 q ] q 代表该短语对应的区域数量. 如图 3 S i , PVG 任务的目的是准确预测其包含
域 r ,...,r , 其中所示, 对给定文本
i
i
p p h 分
的每个短语 s 对应图像 V i 中的区域的边界框 b =x,y,w,h, 其中 (x,y) 代表预测区域边界框的中心点坐标, w 和
i i
别代表预测区域边界框的宽度和高度.

295 296 297 298 299 300 301 302 303 304 305