Page 298 - 《软件学报》2025年第9期
P. 298

赵嘉宁 等: 提升隐式场景下短语视觉定位的因果建模方法                                                     4209


                 使用编码模块分别编码图像和文本特征; 然后, ICM              在  ICA  模块中采用因果推理中的前门调整策略对图像和文本
                 特征进行融合与去混杂, 从而缓解了模型在预测隐式关系时会被浅层语义所混淆的问题; 最后, ICM                              在隐式感知
                 的优化模块中, 利用去混杂后的图像和文本特征预测文本中短语在图像中所处的区域. 相较于传统的                                 PVG  方法,
                 ICM  更关注文本中语义较深且复杂的短语, 从而能够有效提升模型理解深层多模态语义的能力.
                    综上所述, 本文的贡献如下.
                    (1) 本文考虑了短语视觉定位        (PVG) 任务中的隐式短语-区域对齐关系问题, 并基于对现有数据集的分析构建
                 了一个面向隐式场景的高质量隐式数据集, 用于帮助评估模型深层多模态语义的理解能力.
                    (2) 本文为短语视觉定位任务提出了一种新颖的隐式增强的因果建模短语视觉定位方法                            ICM. 具体而言, 本文
                 首先构建了因果图对       PVG  的显式和隐式短语-区域对齐关系进行了分析, 然后采用前门调整策略缓解模型在预测
                 隐式关系时会被浅层语义混淆的问题.
                    (3) 本文发现   ICM  在我们构建的隐式数据集上的性能优于一些先进的多模态大语言模型, 这将进一步促进多
                 模态大模型更多的面向隐式场景的研究.

                 1   相关工作

                 1.1   视觉定位
                    视觉定位    (visual grounding) 任务是多模态领域的常见任务之一, 按照是否要对语言描述中所有的短语进行定
                                                                 [2]
                 位, 可以进一步地将其划分为两个任务: 短语视觉定位                 (PVG) 和目标指代理解      (REC) [10] . 对于给定的图像-文本
                 对, 数据集中对于所有的短语都有标注. PVG            任务需要在图像中定位文本中提到的所有短语, 而                REC  任务只对数
                 据集标注的一个短语进行定位. 本文主要关注               PVG  任务, 目前该任务的研究方法大致可以分为两种形式: 两阶段
                 方法和单阶段方法      [11] .
                    两阶段方法将      PVG  任务的过程分为两个步骤: 1) 首先利用一个预训练的目标检测模型                    (如  Faster R-CNN [12]
                 等) 从图像中提取一组候选区域, 2) 然后将待对齐的短语与候选区域进行相似度排序, 返回相似度最高的区域. 例
                 如, 早期的  MattNet [13] 将待定位短语和图像分解为与主题, 位置和关系相关的              3  个模块化组件, 以建模细粒度相似
                 度. Zhuang  等人  [14] 使用注意力机制重构了一个并行注意力网络, 来发现图像中被不同长度的语言描述所提及的区
                 域. Yu  等人  [15] 发现现有的两阶段方法更注重多模态表示的生成和如何更好地对目标检测模型生成的候选区域排
                 序. 基于此, 他们提出了多样化和鉴别性网络             DDPN  来改进候选区域的生成, 同时考虑了多样性和区分度. 还有一
                 些工作利用图学习来更好地进行多模态对齐. 例如, Yang                 等人  [16] 和  Wang  等人  [17] 提出了图注意力网络来完成
                 PVG  任务, 而  Yang  等人  [18] 则利用门控图卷积网络融合多模态信息, 提出了跨模态关系推理网络                CMRIN. 然而, 这
                 些方法很大程度上依赖于预训练的目标检测模型的性能. 如果在第                      1  阶段中没有生成与待定位短语对齐的候选区
                 域, 第  2  阶段的排序和选择过程也无法输出正确的定位结果                [19] . 并且, 在第  1  阶段中使用目标检测模型生成候选
                 区域往往需要耗费大量的时间          [20] .
                    为了解决两阶段方法对预训练的目标检测模型极大的依赖性和生成候选区域需耗费大量时间的问题, 研究者
                 们提出了单阶段方法, 其无需事先生成候选区域, 而是将图像特征和文本特征紧密融合为多模态特征, 并利用多模
                 态特征图, 以滑动窗口的方式直接进行边界框的预测. FAOA                [11] 将文本编码为向量, 并将其与      YOLOv3 [21] 作为目标
                 检测器提取的图像特征融合, 同时使用空间特征来增强视觉特征以完成                       PVG  任务. RCCF [22] 将  PVG  任务定义为关
                 联过滤过程, 并选择相关热力图的峰值作为目标区域的中心. Yang                   等人  [23] 为了解决  FAOA  在面对复杂的短语查
                 询时定位性能不高的局限性, 设计了一个递归子查询构造网络                    ReSC. LBYL-Net [24] 设计了一个  landmark  卷积模块,
                 在语言描述的指导下传输视觉特征, 并对目标区域与其对应的上下文之间的空间关系进行编码. Liao                              等人  [25] 提出
                 了一种语言引导的视觉特征学习机制, 其中语言信息在一开始就用来指导视觉特征的提取, 从而充分利用了两种
                 模态的信息. 随着     Transformer [26] 的广泛应用, Deng  等人  [27] 最早提出了基于  Transformer 的端到端的  PVG  方法
                 TransVG. TransVG  是一个由多个  Transformer 堆叠的网络, 包括文本编码器      BERT [28] , 视觉编码器  DETR [29] 和多模
   293   294   295   296   297   298   299   300   301   302   303