Page 297 - 《软件学报》2025年第9期
P. 297

4208                                                       软件学报  2025  年第  36  卷第  9  期


                 grounding, PVG) 任务  [2] . 图  1(a)、(b) 给出了  PVG  任务的示例, 文本中每种颜色的短语在图像中均有相同颜色的
                 区域框对应. 例如, (a) 中绿色的短语“一名小孩         (a small child)”对应绿色的区域框; (b) 中紫色的短语“浅棕色衬衫      (a light
                                                                                                       [3]
                 brown shirt)”对应紫色的区域框. 这种对应关系是很多视觉语言多模态任务的基础, 如图像描述                     (image captioning) ,
                                                                  [5]
                 图像检索   (image retrieval) , 视觉问答  (visual question answering) 等.
                                    [4]


                    一名男子在红色列车上帮助一名 一名男子身穿深棕色裤子和浅棕              一男一女高举标语, 表示支持迈 在亚洲某城市举行的同性恋游行
                    小孩上车, 另一人则试图上车.     色衬衫正在挥舞高尔夫球杆.          克-赫卡比的竞选活动.        中, 一些人高举彩虹旗表示支持.













                            (a)                 (b)                     (c)                (d)
                           图 1 PVG  任务示例以及包含隐式关系          (implicit) 和显式关系  (explicit) 的图像-文本对

                    近年来, PVG   任务的研究发展迅速, 其模型大多采用双分支网络分别提取图像特征和文本特征, 经过多模态
                 特征融合后, 预测短语对应的边界框. 随着对比学习在多模态领域的应用                      [6] , PVG  任务的性能也得以迅速提升      [7,8] .
                 然而, 已有的   PVG  工作都只关注了短语和区域间有着浅层对应关系的样本                    (即显式短语-区域对齐关系), 忽视了
                 其他一些短语和区域间有着深层对应关系的样本                 (即隐式短语-区域对齐关系). 例如, 在图          1(c)、(d) 中, 蓝色的短
                 语“一男一女 (man, woman)”“标语   (a sign)”“同性恋游行  (a gay pride parade)”和“彩虹旗  (rainbow flags)”等在图像中
                 有着蓝色区域框与其相对应, 模型很容易学习到这种浅层对应关系; 而对于红色的“支持                           (support)”短语, 它们与图
                 像中的区域具有深层的对应关系, 需要模型进一步理解深层语义, 学习到“举着手”的动作是一种表示“支持”的常
                 识, 才能将“支持    (support)”与图  1(c)、(d) 中红色的区域框对应, 这对于已有的模型而言是异常困难的. 本文中, 我
                 们将类似“支持     (support)”这种短语和区域间有着深层对应关系的短语-区域对定义为一种“隐式短语-区域对齐关
                 系”, 简称为“隐式关系”; 反之, 若短语和区域间有着浅层对应关系, 我们将这类短语-区域对定义为“显式短语-区域
                 对齐关系”, 简称为“显式关系”. 基于对现有数据集的观察和分析, 本文通过预标注总结了                      4 种隐式关系: 1) 常识性理解;
                 2) 上下文理解; 3) 空间关系理解; 4) 数值信息理解, 并构建了一个面向隐式场景的                  PVG  数据集用以评估模型深层
                 多模态语义的理解能力        (详情请见第    4.1  节).
                    本文认为建模隐式关系是一个巨大的挑战, 而已有的工作大多将重心放在如何学习短语和区域之间的关
                 联性, 在预测隐式短语的对应区域时, 往往不会考虑理解隐式短语的深层语义. 因此, 预测结果常会被其他一些
                 浅层语义所混淆. 例如, “支持        (support)”所对应的区域为图     1(c)、(d) 中特殊的红色区域框       (即“人们举着手”的
                 动作), 而“举着手”是人所特有的一种动作, 因此这种文本短语与图像区域的隐式对齐关系很容易被浅层语义                                  (如
                 短语“一男一女     (man and woman)”和“一些人  (some people)”及其所对应的区域) 混淆, 导致预测结果出现偏差.
                    为了缓解浅层语义所带来的混淆问题, 本文受因果推理思想的启发                      [9] , 设计了一种新的   PVG  方法来建模隐式
                 关系. 该方法采用因果推理中的干预策略, 缓解了浅层语义会误导模型错误对齐隐式短语与其对应区域的问题. 具
                 体而言, 本文提出了一种隐式增强的因果建模短语视觉定位方法                      (implicit-enhanced causal modeling approach for
                 phrasal visual grounding, ICM). 该  ICM  方法主要包含  3  个部分: 编码模块  (encoding block), 隐式感知的因果注意力
                 模块  (implicit-aware causal attention module, ICA) 和隐式感知的优化模块  (implicit-aware optimization). 首先, ICM
   292   293   294   295   296   297   298   299   300   301   302