Page 304 - 《软件学报》2025年第9期
P. 304
赵嘉宁 等: 提升隐式场景下短语视觉定位的因果建模方法 4215
● 数值信息理解表示一个短语可能指向的是多个区域的情况, 需要模型准确理解数值类信息进而精确预测,
例如: “其中三位 (three of them)”指向了图像中的 3 个区域.
隐式关系类别 占比 (%) 带有隐式关系的图像-文本对
常识性理解 34.5
一男一女高举标语, 表示支持迈克-赫卡比的竞
选活动.
上下文理解 26.9 两个人在田野里喂羊, 旁边有一只狗, 还有三个
人看着他们.
空间关系理解 23.5 一名男子正在弹吉他, 旁边还有一名男子戴着
面具坐在一辆绿色小车后面.
数值信息理解 15.1
餐桌上坐着六位女士, 其中三位正在编织.
图 4 面向隐式场景的 4 种主要短语-区域对齐关系以及每种隐式关系在隐式数据集中的占比
在数据标注过程中, 本文邀请了两位标注人员同时对数据集中的短语-区域对进行隐式或非隐式的标注, 在标
注过程中, 若两位标注人员无法就某一短语-区域对是否为隐式关系达成一致, 我们将另外安排一位专家来做最终
的决定. 标注结束后进行 Kappa 一致性检测, 最终 Kappa 检测值为 0.85, 说明了此次数据标注的一致性. 由于标注
非常复杂, 费时且困难, 因此本文基于如图 4 所示的 4 种主要隐式关系对 Flickr30k Entities 原始数据集的测试集
和验证集共 15k 条短语-区域对信息进行了标注. 最终, 我们得到了 1.4k 条隐式短语-区域对信息, 12.73k 条显式短
语-区域对信息. 此外, 原始数据集中还存在一定量 (0.87k 条) 的错误标注与冗余标注的数据. 例如, 原始数据集中,
图 1(c) 的“支持 (support)”短语除了与“人举着手”的区域对应外, 还与一些人所在的区域对应. 本文的隐式与显式
数据集可以看作是对原始数据集进一步的精标注, 过滤了错误与冗余的部分. 因此隐式数据集加上显式数据集实
际上是原始数据集的子集. 按照数据集的原始划分, 我们得到了隐式数据集和显式数据集的验证集和测试集.
在训练阶段, 本文使用包含隐式和显式短语-区域对齐关系的全部数据集进行训练 (即 Flickr30k Entities 数据
集的原始训练集); 在验证和测试阶段, 本文使用隐式数据集, 显式数据集以及 Flickr30k Entities 原始的数据集进行
验证和测试, 分别得到验证集和测试集上的实验结果.
4.2 Baselines
本文通过对比传统的性能优异的 PVG 方法, 多模态预训练模型, 多模态大语言模型 (MLLM) 来验证 ICM 的
有效性, 如下所述.
(1) 传统的 PVG 方法
● FAOA (a fast and accurate one-stage approach) [11] 较早提出了单阶段方法, 使用 YOLOv3 作为目标检测器来
提取图像特征, 并将文本特征融合进 YOLOv3 中. 此外, 考虑到图像中的空间信息, 视觉文本融合特征还采用空间
特征进行特征数据增强.
● ReSC (recursive sub-query construction framework) [23] 提出了一种递归子查询构建框架来解决 PVG 方法在面
对长且复杂的文本查询时定位效果不佳的问题. 其设计使用了一种子查询学习器来构建子查询, 该学习器使用子
查询调制网络来利用子查询完善视觉文本特征, 利用子查询最后一轮的视觉文本特征预测最终的区域边界框.
● TransVG (Transformers for visual grounding) [27] 是一种基于 Transformer 编码器的堆叠结构设计的视觉定位
模型, 它解决了传统的两阶段和单阶段方法对于手工设计推理模块和多模态融合模块 (如: 图像场景图等) 的过度
依赖, 从而导致模型容易过度拟合具有特定场景的数据集的问题. 此外, TransVG 将视觉定位问题定义为直接坐标
回归问题, 直接进行区域边界框的预测, 避免了从一组候选区域进行预测.

